1 Présentation du sujet

Une des préocupations majeures des entreprises est de cibler sa clientèle pour optimiser ses profits. Cela passe par l’analyse de la personnalité de ses consommateurs. Nous allons alors faire l’étude des caractérisques des clients qui consomment majoritairement les produits de notre base de données. Puis, nous allons voir comment attirer ces consommateurs. Afin de ne pas trop alourdir et rendre redondante notre étude statistique nous allons nous concentrer sur la dépense en consommation de trois produits : \(\color{#B21515}{Vin}\), \(\color{#B21515}{Viande}\) et \(\color{#B21515}{Friandise}\)

Présentation de la base de données :

Notre base de données comporte 2240 consommateurs différents avec 28 variables qui les décrivent :
PERSONNALITÉ DU CLIENT
Variables Définition des variables
Year_Birth Année de naissance
Education Niveau d’étude
Marital_Status Etat civil
Income Revenu
Kidhome Nombre d’enfants dans le ménage
Teenhome Nombre d’adolescents dans le ménage
Dt_Customer Date d’adhésion du client à l’entreprise
Recency Nombre de jours depuis le dernier achat du client
Complain 1 si le client s’est plaint au cours des 2 dernières années, 0 sinon
PRODUITS
Variables Définition des variables
MntWines Montant dépensé pour le vin au cours des 2 dernières années
MntFruits Montant dépensé pour les fruits au cours des 2 dernières années
MntMeatProducts Montant dépensé pour la viande au cours des 2 dernières années
MntFishProducts Montant dépensé pour le poisson au cours des 2 dernières années
MntSweetProducts Montant dépensé en bonbons au cours des 2 dernières années
MntGoldProds Montant dépensé en or au cours des 2 dernières années
PROMOTIONS
Variables Définition des variables
NumDealsPurchases Nombre d’achats effectués avec une remise
AcceptedCmp1 1 si le client a accepté l’offre lors de la 1ère campagne, 0 sinon
AcceptedCmp2 1 si le client a accepté l’offre lors de la 2ème campagne, 0 sinon
AcceptedCmp3 1 si le client a accepté l’offre lors de la 3ème campagne, 0 sinon
AcceptedCmp4 1 si le client a accepté l’offre lors de la 4ème campagne, 0 sinon
AcceptedCmp5 1 si le client a accepté l’offre lors de la 5ème campagne, 0 sinon
Response 1 si le client a accepté l’offre lors de la dernière campagne, 0 sinon
LIEUX DE MARCHÉ
Variables Définition des variables
NumWebPurchases Nombre d’achats effectués sur le site Web de l’entreprise
NumCatalogPurchases Nombre d’achats effectués à l’aide d’un catalogue
NumStorePurchases Nombre d’achats effectués directement en magasin
NumWebVisitsMonth Nombre de visites sur le site Web de l’entreprise au cours du dernier mois

Valeurs manquantes :

Il y a 24 valeurs manquantes dans la base de données. Nous remarquons que la variable qui comporte le plus de valeurs manquantes (NA) est la variable Income. Il est donc nécessaire d’enlever les consommateurs qui n’ont pas renseignés leur revenu, puisque cette variable est importante pour notre étude où l’on veut segmenter la population en fonction de leur dépense.

Nettoyage de la base :

  • Certaines variables ont des modalités trop peu représentées et avec des observations extrêmes, comme \(\color{#B21515}{YOLO}\) et \(\color{#B21515}{Absurd}\), que nous décidons d’enlever.
  • Selon nous, \(\color{#B21515}{Alone}\) et \(\color{#B21515}{Single}\) ne représentent pas le même type d’individu et la modalité \(\color{#B21515}{Alone}\) est également très peu représentée. Nous décidons également de l’enlever.
  • Les variables \(\color{#B21515}{Kidhome}\) et \(\color{#B21515}{Teenhome}\) sont des entiers, afin de les étudier nous les transformerons en facteur.
  • La variable \(\color{#B21515}{Income}\) possède trop de modalités, créons plutôt des intervalles de revenu pour que cela soit plus simple et intéressant.

Regardons les effectifs des variables personnalité :

Effectif de Marital Status
Divorced Married Single Together Widow
232 857 471 573 76
Effectif de Education
2n Cycle Basic Graduation Master PhD
200 54 1114 363 478
Effectif de Kidhome
0 1 2
1279 884 46
Effectif de Teenhome
0 1 2
1144 1014 51
Effectif de Revenu
1500-15000 15000-20000 20000-30000 30000-45000 45000-65000 65000-80000 80000-700000
52 75 243 528 637 457 217

2 Segmentation des consommateurs

Nous allons étudier dans cette partie, les caractéristiques des consommateurs selon trois produits (vin, viande et les friandises).

2.1 Consommation de vin

Intervalle de confiance :

La dépense moyenne en vin s’avère être de 305.194, avec un intervalle de confiance égal à [291.104, 319.284] à 95 %. Donc, il y a 95% de chance que la dépense moyenne d’achat soit comprise entre 291 et 319.

2.1.1 État civil

Marital_Status moyenne écart-type maximum
Divorced 324.8448 347.0973 1459
Married 299.8553 338.4270 1493
Single 291.3312 334.0804 1332
Together 308.4031 335.8272 1492
Widow 367.1316 335.6053 1462

Les moyennes de Divorced ou Widow n’appartiennent pas à l’intervalle de confiance de la dépense moyenne en vin, elles sont plus élevées. On peut imaginer que ces moyennes sont “tirées” par le fait que ces modalités contiennent des individus qui dépensent plus en vin. Ceci est également visible avec le graphique.

Divorced versus Widow :

On veut maintenant tester si la dépense en vin des Widow est en moyenne plus importante que celle des Divorced. Pour cela, nous devons faire un test de Student. Rappelons que pour effectuer un test de Student les échantillons doivent vérifier le test de normalité, ce qui est le cas puisque les effectifs de ces modalités sont très grands.

Le test que l’on souhaite réaliser est : \[ \left\{ \begin{array}{ll} H_0 : \mu_{Widow} = \mu_{Divorced} \\ H_1 : \mu_{Widow} > \mu_{Divorced} \end{array} \right. \]

Regardons dans un premier temps si les variances sont égales. Puis, effectuons le test de Student pour comparer les moyennes.

test de Fisher et test de Student
p-value test égalité variance p-value test Student
0.746 0.177

Test de significacité des variances (Fisher) : La p-value est égale à 0.746, ce qui est supérieur au risque de première espèce. Il n’y a donc aucune différence significative entre les variances des deux groupes d’échantillons. Par conséquent, nous pouvons utiliser le t-test classique qui suppose l’égalité des variances et qui renforce la puissance du test.

Test de comparaison des moyennes (Student) : Comme la p-value, de 0.177, est supérieure au risque de première espèce on conserve H0. On en conclut que la dépense des Widow est en moyenne significativement la même que celle des Divorced au risque de 5%.

Conclusion :

Les modalités Divorced et Widow sont les individus qui dépensent le plus, en moyenne, dans la consommation de vin. Ce sont les consommateurs à fort potentiel, qu’il faut cibler.

2.1.2 Niveau d’étude

Education moyenne écart-type maximum
2n Cycle 200.845000 262.51876 1215
Basic 7.240741 30.76321 228
Graduation 285.130162 308.35875 1492
Master 332.683196 356.91255 1486
PhD 408.399582 391.98537 1493

Seule, la modalité Basic, a une dispersion, une moyenne et une valeur maximale faible. Tous les individus avec un niveau d’étude Basic ne dépensent pas beaucoup dans le vin. Les moyennes de Master ou PhD n’appartiennent pas à l’intervalle de confiance de la dépense moyenne en vin. On peut imaginer que ces moyennes sont “tirées” par le fait que ces modalités contiennent des individus qui dépensent plus en vin. Ceci est également visible avec le graphique.

Master versus PhD :

On veut maintenant tester si la dépense en vin des PhD est en moyenne plus importante que celle de Master. Pour cela, nous devons faire un test de Student. Rappelons que pour effectuer un test de Student les échantillons doivent vérifier le test de normalité, ce qui est le cas puisque les effectifs de ces modalités sont très grand.

Le test que l’on souhaite réaliser est : \[ \left\{ \begin{array}{ll} H_0 : \mu_{PhD} = \mu_{Master} \\ H_1 : \mu_{PhD} > \mu_{Master} \end{array} \right. \]

Regardons dans un premier temps si les variances sont égales. Puis, effectuons le test de Student pour comparer les moyennes.

test de Fisher et test de Student
p-value test égalité variance p-value test Student
0.059 0.002

Test de significacité des variances (Fisher) : La p-value est égale à 0.059, ce qui est supérieur au risque de première espèce. Il n’y a donc aucune différence significative entre les variances des deux groupes d’échantillons. Par conséquent nous pouvons utiliser le t-test classique qui suppose l’égalité des variances et qui renforce la puissance du test.

Test de comparaison des moyennes (Student) : Comme la p-value, de 0.002, est inférieure au risque de première espèce on rejette H0. On en conclut que la dépense des PhD est en moyenne significativement plus importante que celle des Master au risque de 5%.

Conclusion :

La modalité PhD représente les individus qui dépensent le plus, en moyenne, dans la consommation de vin. Ce sont les consommateurs à fort potentiel, qu’il faut cibler.

2.1.3 Nombre d’enfant

Kidhome moyenne écart-type maximum
0 452.5927 344.0034 1493
1 104.0679 196.0678 1486
2 72.0000 111.1753 406

La relation entre le nombre d’enfant et les dépenses en vin est décroissante. Les consommateurs avec un nombre d’enfant élevé se “mettent tous daccord” sur la dépense qu’ils effectuent dans la consommation de vin. On voit notamment que la moyenne des sans enfant à charge n’appartient pas à l’intervalle de confiance de la dépense moyenne en vin.

Pas d’enfant à charge :

On veut maintenant tester si la dépense en vin des consommateurs ayant 0 enfant est en moyenne plus importante que la moyenne standard (305 euros). Pour cela, nous devons faire un Sample test. Rappelons que pour effectuer un test de Student les échantillons doivent vérifier le test de normalité, ce qui est le cas puisque les effectifs de ces modalités sont très grand.

Le test que l’on souhaite réaliser est : \[ \left\{ \begin{array}{ll} H_0 : \mu_{0 enfant} = \mu \\ H_1 : \mu_{0 enfant} > \mu \end{array} \right. \]

Comme la p-value est de 0, donc on rejette H0. On en conclut que la dépense de 0 enfant est en moyenne significativement plus importante que celle des autres modalités au risque de 5%.

Conclusion :

La modalité sans enfant à charge représente les individus qui dépensent le plus, en moyenne, dans la consommation de vin. Ce sont les consommateurs à fort potentiel, qu’il faut cibler.

2.1.4 Nombre d’adolescent

Teenhome moyenne écart-type maximum
0 306.1399 364.3759 1493
1 301.6440 305.4435 1492
2 354.5686 328.1347 1459

Les valeurs statistiques sont globalement semblables. Cependant, on remarque que la modalité 2 adolescents a une moyenne légèrement plus importante et n’appartient pas à l’intervalle de confiance.

Conclusion :

Après la réalisation d’un test, nous observons que la modalité 2 adolescents à charge ne s’écarte pas significativement de la moyenne de dépense standard. Il n’est pas très intéressant de segmenter les consommateurs en fonction du nombre d’adolescents qu’ils ont à charge.

2.1.5 Revenu

Revenu moyenne écart-type maximum
1500-15000 12.26923 21.589863 107
15000-20000 7.76000 7.643828 32
20000-30000 15.96296 22.779818 206
30000-45000 70.99053 97.203624 853
45000-65000 337.19780 274.790272 1459
65000-80000 585.61926 299.704649 1462
80000-700000 687.41475 366.357336 1493

Contrairement à la modalité 15000-20000, les autres modalités ont une relation entre le revenu et les dépenses en vin croissante. Plus les individus ont un revenu conséquent, plus ils dépensent dans la consommation de vin. On peut donc dire que les consommateurs avec une catégorie de revenu de 15000-20000 sont moins sensibles à la dépense en vin.
On remarque égelement que trois catégories de revenus se démarquent par leurs dépenses. Les modaliés 45000-65000, 65000-80000 et 80000-700000 sont celles qui dépensent le plus en vin. Ces fortes différences en moyenne, valeur maximale et écart-type peuvent-être expliquées par la différence de prix des bouteilles de vins.

45000-65000 versus 65000-80000 :

On veut maintenant tester si la dépense en vin des 65000-80000 est en moyenne plus importante que celle de 45000-65000. Pour cela, nous devons faire un test de Student. Rappelons que pour effectuer un test de Student les échantillons doivent vérifier le test de normalité, ce qui est le cas puisque les effectifs de ces modalités sont très grand.

Le test que l’on souhaite réaliser est : \[ \left\{ \begin{array}{ll} H_0 : \mu_{65000-80000} = \mu_{45000-65000} \\ H_1 : \mu_{65000-80000} > \mu_{45000-65000} \end{array} \right. \]

Regardons dans un premier temps si les variances sont égales. Puis, effectuons le test de Student pour comparer les moyennes.

test de Fisher et test de Student
p-value test égalité variance p-value test Student
0.044 0

Test de significacité des variances (Fisher) : La p-value est égale à 0.0004, ce qui est inférieur au risque de première espèce. Il y a donc une différence significative entre les variances des deux groupes d’échantillons.

Test de comparaison des moyennes (Student) : Comme la p-value est inférieure au risque de première espèce on rejette H0. On en conclut que la dépense de 65000-80000 est en moyenne significativement plus importante que celle des 45000-65000 au risque de 5%.

80000-700000 versus 65000-80000 :

On veut maintenant tester si la dépense en vin des 80000-700000 est en moyenne plus importante que celle de 65000-80000. Pour cela, nous devons faire un test de Student. Rappelons que pour effectuer un test de Student les échantillons doivent vérifier le test de normalité, ce qui est le cas puisque les effectifs de ces modalités sont très grand.

Le test que l’on souhaite réaliser est : \[ \left\{ \begin{array}{ll} H_0 : \mu_{80000-700000} = \mu_{65000-80000} \\ H_1 : \mu_{80000-700000} > \mu_{65000-80000} \end{array} \right. \]

Regardons dans un premier temps si les variances sont égales. Puis, effectuons le test de Student pour comparer les moyennes.

test de Fisher et test de Student
p-value test égalité variance p-value test Student
0.0004274 0.0002062

Test de significacité des variances (Fisher) : La p-value est égale à 0.0004, ce qui est inférieur au risque de première espèce. Il y a donc une différence significative entre les variances des deux groupes d’échantillons.

Test de comparaison des moyennes (Student) : Comme la p-value, de 0.0002, est inférieure au risque de première espèce on rejette H0. On en conclut que la dépense de 80000-700000 est en moyenne significativement plus importante que celle des 65000-80000 au risque de 5%.

Conclusion :

Les individus ayant la modalité 80000-700000 dépensent plus, en moyenne, que ceux ayant la modalité 65000-80000 dans le vin ; et les clients ayant un revenu compris entre 65000-80000 dépensent plus que ceux ayant la modalité 45000-65000. On peut conclure que consommateurs avec les revenus les plus important sont à cibler.

2.2 Consommation de viande

Intervalle de confiance :

La dépense moyenne en viande s’avère être de 167.161, avec un intervalle de confiance de [157.797, 176.526] à 95 %. Donc 95% de chance que la dépense moyenne d’achat de la population étudiée soit comprise entre 158 et 177.

2.2.1 État-civil

Marital_Status moyenne écart-type maximum
Divorced 150.2069 187.0925 932
Married 160.8961 226.3786 1725
Single 184.8493 244.7366 984
Together 166.4468 218.7561 1725
Widow 185.3289 215.1156 925

On remarque que les modalités Widow et Single sont celles qui dépensent en moyenne le plus dans la viande. On remarque également que la dispersion de la dépense en viande de Single est très élevée, nous supposons donc que certains consommateurs dépensent très peu en viande et d’autres énormément.

Single versus Widow :

On veut maintenant tester si la dépense en viande de la modalité Widow est en moyenne plus importante que celle des Single. Pour cela, nous devons faire un test de Student. Rappelons que pour effectuer un test de Student les échantillons doivent vérifier le test de normalité, ce qui est le cas puisque les effectifs de ces modalités sont très grand.

Le test que l’on souhaite réaliser est : \[ \left\{ \begin{array}{ll} H_0 : \mu_{Widow} = \mu_{Single} \\ H_1 : \mu_{Widow} > \mu_{Single} \end{array} \right. \] Regardons dans un premier temps si les variances sont égales. Puis, effectuons le test de Student pour comparer les moyennes.

test de Fisher et test de Student
p-value test égalité variance p-value test Student
0.168 0.494

Test de significacité des variances (Fisher) : La p-value est égale à 0.168, ce qui est supérieur au risque de première espèce. Il n’y a donc aucune différence significative entre les variances des deux groupes d’échantillons. Par conséquent nous pouvons utiliser le t-test classique qui suppose l’égalité des variances et qui renforce la puissance du test.

Test de comparaison des moyennes (Student) : Comme la p-value, de 0.494, est supérieure au risque de première espèce on conserve H0. On en conclut que la dépense de Widow est en moyenne significativement la même que celle des Single au risque de 5%.

Conclusion :

Les modalités Widow et Single représentent les individus qui dépensent le plus, en moyenne, dans la consommation de viande. Ce sont les consommateurs à fort potentiel, qu’il faut cibler.

2.2.2 Niveau d’étude

Education moyenne écart-type maximum
2n Cycle 135.08000 194.32523 974
Basic 11.44444 18.81355 122
Graduation 180.58348 230.87596 1725
Master 162.31129 222.29539 925
PhD 170.57741 227.75022 1622

Malgré une forte dispersion dans toutes modalités (sauf pour les clients ayant un niveau de diplôme Basic), on remarque que les clients qui dépensent en moyenne plus en viande sont Graduation, et PhD. Ce qui n’est pas étonnant puisqu’on suppose que les clients ayant au minimum un niveau de diplôme Graduation gagnent assez bien leur vie. Cependant, *PhD appartient à l’interavalle de confiance donc on ne garde par cette modalité.

Graduation versus PhD :

On veut maintenant tester si la dépense en viande de la modalité Graduation est en moyenne plus importante que celle des PhD. Pour cela, nous devons faire un test de Student. Rappelons que pour effectuer un test de Student les échantillons doivent vérifier le test de normalité, ce qui est le cas puisque les effectifs de ces modalités sont très grand.

Le test que l’on souhaite réaliser est : \[ \left\{ \begin{array}{ll} H_0 : \mu_{Graduation} = \mu_{PhD} \\ H_1 : \mu_{Graduation} > \mu_{PhD} \end{array} \right. \] Regardons dans un premier temps si les variances sont égales. Puis, effectuons le test de Student pour comparer les moyennes.

test de Fisher et test de Student
p-value test égalité variance p-value test Student
0.733 0.213

Test de significacité des variances (Fisher) : La p-value est égale à 0.733, ce qui est supérieur au risque de première espèce. Il n’y a donc aucune différence significative entre les variances des deux groupes d’échantillons. Par conséquent nous pouvons utiliser le t-test classique qui suppose l’égalité des variances et qui renforce la puissance du test.

Test de comparaison des moyennes (Student) : Comme la p-value, de 0.213, est supérieure au risque de première espèce on conserve H0. On en conclut que la dépense de Graduation est en moyenne significativement la même que celle des PhD au risque de 5%.

Conclusion :

Les modalités Graduation et PhD représentent les individus qui dépensent le plus, en moyenne, dans la consommation de viande. Ce sont les consommateurs à fort potentiel, qu’il faut cibler.

2.2.3 Nombre d’enfants

Kidhome moyenne écart-type maximum
0 253.63096 251.14731 1725
1 49.18665 94.06962 1725
2 30.08696 38.41517 177

Nous remarquons que les consommateurs n’ayant pas d’enfant sont ceux qui dépensent en moyenne le plus en viande. En effet, la relation entre le nombre d’enfant des consommateurs et la dépense en viande est négative.

Sans enfant à charge :

On veut maintenant tester si la dépense en viande des sans enfant à charge est en moyenne plus importante que la moyenne standard (167). Pour cela, nous devons faire un Sample test. Rappelons que pour effectuer un test de Student les échantillons doivent vérifier le test de normalité, ce qui est le cas puisque les effectifs de ces modalités sont très grand.

Le test que l’on souhaite réaliser est : \[ \left\{ \begin{array}{ll} H_0 : \mu_{0 enfant} = \mu \\ H_1 : \mu_{0 enfant} > \mu \end{array} \right. \] Comme la p-value est de 0 donc on rejette H0. On en conclut que la dépense de consommateurs ayant 0 enfant à charge est en moyenne significativement plus importante que celle des autres modalités au risque de 5%.

Conclusion :

La modalité sans enfant à charge représente les individus qui dépensent le plus en moyenne dans la consommation de viande. Ce sont les consommateurs qu’il faut cibler.

2.2.4 Nombre d’adolescents

Teenhome moyenne écart-type maximum
0 226.6495 274.6895 1725
1 102.2249 123.5789 1582
2 123.8431 147.4078 650

Nous pouvons faire la même hypothèse que pour les consommateurs sans adolescent. En effet, ceux qui dépensent en moyenne le plus sont les clients n’ayant pas d’adolescents.

Sans adolescent à charge :

On veut maintenant tester si la dépense en viande des sans adolescent à charge est en moyenne plus importante que la moyenne standard (167). Pour cela, nous devons faire un Sample test. Rappelons que pour effectuer un test de Student les échantillons doivent vérifier le test de normalité, ce qui est le cas puisque les effectifs de ces modalités sont très grand.

Le test que l’on souhaite réaliser est : \[ \left\{ \begin{array}{ll} H_0 : \mu_{0 adolescent} = \mu \\ H_1 : \mu_{0 adolescent} > \mu \end{array} \right. \] Comme la p-value est de 0 donc on rejette H0. On en conclut que la dépense des consommateurs ayant 0 adolescent à charge est en moyenne significativement plus importante que celle des autres modalités au risque de 5%.

Conclusion :

La modalité sans adolescent à charge représente les individus qui dépensent en moyenne le plus dans la consommation de viande. Ce sont les consommateurs à fort potentiel, qu’il faut cibler.

2.2.5 Revenu

Revenu moyenne écart-type maximum
1500-15000 44.19231 237.88810 1725
15000-20000 11.29333 8.18828 38
20000-30000 19.73663 28.26053 226
30000-45000 35.22917 41.81062 267
45000-65000 115.43014 120.37093 818
65000-80000 340.94967 209.87135 951
80000-700000 522.46083 288.14713 1725

Les consommateurs ayant un revenu compris entre 65000-80000 et 80000-700000 dépensent en moyenne plus en viande. De plus, il y a une grosse différence de dépense entre les clients qui gagnent entre 80000-700000 et ceux qui gagnent entre 1500-5000. Ceci n’est pas choquant et est cohérent puisque la viande est un bien onéreux, qui reste parfois inaccessible.

65000-80000 versus 80000-700000 :

On veut maintenant tester si la dépense en viande des 80000-700000 est en moyenne plus importante que celle de 65000-80000. Pour cela, nous devons faire un test de Student. Rappelons que pour effectuer un test de Student les échantillons doivent vérifier le test de normalité, ce qui est le cas puisque les effectifs de ces modalités sont très grand.

Le test que l’on souhaite réaliser est : \[ \left\{ \begin{array}{ll} H_0 : \mu_{80000-700000} = \mu_{65000-80000} \\ H_1 : \mu_{80000-700000} > \mu_{65000-80000} \end{array} \right. \]

Regardons dans un premier temps si les variances sont égales. Puis, effectuons le test de Student pour comparer les moyennes.
test de Fisher et test de Student
p-value test égalité variance p-value test Student
0 0

Test de significacité des variances (Fisher) : La p-value est inférieur au risque de première espèce. Il n’y a donc une différence significative entre les variances des deux groupes d’échantillons.

Test de comparaison des moyennes (Student) : Comme la p-value est inférieur au risque de première espèce on rejette H0. On en conclue que la dépense de (80000-700000) est en moyenne significativement plus importante que celle des (65000-80000) au risque de 5%.

Conclusion :

80000-700000 dépensent plus que 65000-800000 dans la viande.

2.3 Consommation de Friandises

Intervalle de confiance :

La dépense moyenne en friandises est égale à 27.075. On remarque, de plus, qu’il y a 95% de chances que la dépense moyenne des consommateurs observés soit comprise entre [25.359, 28.79].

2.3.1 État civil

Marital_Status moyenne écart-type maximum
Divorced 26.81897 41.28281 189
Married 26.75146 41.23712 197
Single 27.07219 40.76658 262
Together 26.23211 39.75049 196
Widow 37.86842 50.14495 191

Remarque : Les consommateurs observés veufs ont, en moyenne,tendance à consommer davantage de friandises que les autres consommateurs observés. On observe tout de même, qu’en moyenne, la différence de consommation entre états civils n’est pas importante.

Widow :

Testons à présent si la dépense moyenne en friandises des Widow est plus conséquente que la dépense moyenne globale. Il suffit, pour cela, d’effectuer un test de Student. Pour que ce test puisse être effectuer les échantillons de consommateurs observés doivent vérifier le test de normalité, cela se vérifie simplement puisque les effectifs sont assez grands : 76 consommateurs observés veufs.

Le test que l’on souhaite réaliser est le suivant : \[ \left\{ \begin{array}{ll} H_0 : \mu_{Widow} = \mu \\ H_1 : \mu_{Widow} > \mu \end{array} \right. \]

La p-value est de 0.03224 donc on rejette \(H_0\). La dépense moyenne en friandises des consommateurs observés veufs est donc significativement plus conséquente que celle des autres modalités au risque de 5%.

Conclusion :

La modalité Widow dépense en moyenne plus en consommation de friandises que les autres consommateurs observés. Il est donc intéressant de cibler cette catégorie de consommateurs.

2.3.2 Niveau d’étude

Education moyenne écart-type maximum
2n Cycle 34.72500 49.08949 194
Basic 12.11111 19.80248 129
Graduation 31.27469 44.03550 198
Master 20.90909 34.36809 179
PhD 20.45816 34.50326 262

Remarque : Les **consommateurs observés étant diplomé du second cycle ou gradués ont, en moyenne, tendance à consommer davantage de friandises que les autres consommateurs observés.

Conclusion :

Après la réalisation d’un test, nous observons que les modalités 2n Cycle et Graduation sont similaires. Il n’est pas très intérressant de segmenter les consommateurs en fonction du niveau d’étude.

2.3.3 Enfant(s) à charge

Kidhome moyenne écart-type maximum
0 40.665364 47.42254 262
1 8.617647 18.16773 150
2 3.891304 10.04264 64

Remarque : Les consommateurs observés n’ayant aucun enfant à charge consomment, en moyenne, davantage de friandises que les autres consommateurs observés. Cette observation peut sembler inatendue puisqu’en général la réflexion initiale concernant la consommation de friandises en fonction du nombre d’enfants à charge aurait tendance à préférer une relation positive.

Sans enfant à charge :

Testons à présent si la dépense moyenne en friandises des consommateurs sans enfant à charge est plus conséquente que la dépense moyenne globale. Il suffit, pour cela, d’effectuer un test de Student. Pour que ce test puisse être effectuer les échantillons de consommateurs observés doivent vérifier le test de normalité, cela se vérifie simplement puisque les effectifs sont assez grands : 1279 consommateurs observés sans enfant à charge.

Le test que l’on souhaite réaliser est le suivant : \[ \left\{ \begin{array}{ll} H_0 : \mu_{0 enfant} = \mu \\ H_1 : \mu_{0 enfant} > \mu \end{array} \right. \] La p-value est de 0 donc on rejette \(H_0\). La dépense moyenne en friandises des consommateurs observés sans enfant à charge est donc significativement plus conséquente que celle des autres modalités au risque de 5%.

Conclusion :

La modalité sans enfant à charge dépense en moyenne plus en consommation de friandises que les autres consommateurs observés. Il est donc intéressant de cibler ce type de consommateurs.

2.3.4 Adolescent(s) à charge

Teenhome moyenne écart-type maximum
0 33.57255 45.59144 262
1 20.33037 34.73780 195
2 15.41176 25.53678 107

Remarque : Les consommateurs observés n’ayant aucun adolescent à charge ont, en moyenne, tendance à consommer davantage de friandises que les autres consommateurs observés. Une fois de plus, cette observation peut suprendre pour les mêmes raisons que pour les résultats obtenus en étudiant la consommation de friandises en fonction du nombre d’enfants à charge.

Sans adolescent à charge :

Testons à présent si la dépense moyenne en friandises des consommateurs sans adolescent à charge est plus conséquente que la dépense moyenne globale. Il suffit, pour cela, d’effectuer un test de Student. Pour que ce test puisse être effectuer les échantillons de consommateurs observés doivent vérifier le test de normalité, cela se vérifie simplement puisque les effectifs sont assez grands : 1144 consommateurs observés sans adolescent à charge.

Le test que l’on souhaite réaliser est le suivant : \[ \left\{ \begin{array}{ll} H_0 : \mu_{0 adolescent} = \mu \\ H_1 : \mu_{0 adolescent} > \mu \end{array} \right. \]

La p-value est de 0 donc on rejette \(H_0\). La dépense moyenne en friandises des consommateurs observés sans adolescent à charge est donc significativement plus conséquente que celle des autres modalités au risque de 5%.

Conclusion :

La modalité sans adolescent à charge dépense en moyenne plus en consommation de friandises que les autres consommateurs observés. Il serait intéressant de cibler ce type de consommateurs.

2.3.5 Revenu

Revenu moyenne écart-type maximum
1500-15000 5.769231 7.210057 36
15000-20000 5.093333 4.937921 30
20000-30000 6.617284 12.608768 157
30000-45000 6.314394 12.333430 129
45000-65000 21.249607 32.595706 192
65000-80000 54.501094 48.459837 197
80000-700000 72.539170 55.255631 262

Remarque : Les consommateurs observés dont le revenu annuel est compris entre 65000 et 700000 ont, en moyenne, tendance à consommer davantage de friandises que les autres consommateurs observés. Cette différence de consommation entre catégories de revenu est, en terme de moyenne, flagrante et s’explique peut être par un pouvoir d’achat plus important.

Revenu 65000-80000 versus Revenu 80000-700000 :

Testons à présent si la dépense moyenne en friandises des Revenu 80000-700000 est plus conséquente que celle des Revenu 65000-80000. Il suffit, pour cela, d’effectuer un test de Student. Pour que ce test puisse être effectuer les échantillons de consommateurs observés doivent vérifier le test de normalité, cela se vérifie simplement puisque les effectifs sont assez grands : 457 consommateurs observés avec un revenu compris entre 65000 et 80000 et 217 consommateurs observés avec un revenu compris entre 80000 et 700000

Le test que l’on souhaite réaliser est le suivant : \[ \left\{ \begin{array}{ll} H_0 : \mu_{80000-700000} = \mu_{65000-80000} \\ H_1 : \mu_{80000-700000} > \mu_{65000-80000} \end{array} \right. \]

Regardons dans un premier temps si les variances sont égales. Puis, effectuons le test de Student pour comparer les moyennes.
test de Fisher et test de Student
p-value test égalité variance p-value test Student
0.022 2.37e-05

Test de significacité des variances (Fisher) : La p-value est, égale à 0.022, est inférieure au risque de première espèce. Il y a donc une différence significative entre les variances des deux groupes de consommateurs étudiés. Par conséquent nous devons utiliser le t-test qui suppose l’inégalité des variances.

Test de comparaison des moyennes (Student) : La p-value , égale à 2.37e-05 , est inférieure au risque de première espèce on rejette \(H_0\). On peut donc en conclure que la dépense des consommateurs avec un revenu compris entre 80000 et 700000 est en moyenne significativement plus élevée que celle des consommateurs avec un revenu compris entre 65000 et 80000 au risque de 5%.

Conclusion :

Ces deux modalités, Revenu 65000-80000 et Revenu 80000-700000, dépensent en moyenne plus en consommation de friandises que les autres consommateurs observés. Il serait intéressant de cibler ces deux catégories de consommateurs.

3 Stratégies commerciales

Durant la première partie de l’étude, pour les trois produits étudiés (\(\color{#B21515}{Vin}\), \(\color{#B21515}{Viande}\) et \(\color{#B21515}{Friandise}\)), nous avons trouvés des modalités de variables qui se distinguaient des autres par la dépense en consommation de ces trois biens. Pour cela, nous allons étudier dans cette seconde partie la sensibilité des consommateurs aux promotions ainsi que leurs préférences en termes de lieux de marchés. Cela nous permettra de segmenter le marché et d’identifier les consommateurs à cibler.

3.1 Sans enfant à charge

À l’aide du tableau de taux de participation, on observe 1279 consommateurs observés sans enfant à charge dans notre base de données.
Taux de participation en fonction de Kidhome
0 1 2
Effectifs 1279.000 884.0 46.000
Taux de participation 0.579 0.4 0.021

Observons si ce type de consommateurs à tendance à effectuer des achats remisés.

Nombre d’achats avec remise
0 1 2 3 4 5 6 7 8 11 15
Effectif 41 681 241 138 86 46 27 11 3 1 4

96.794% des consommateurs observés sans enfant à charge effectuent des achats avec remise. De plus on remarque que les ces consommateurs effectuent entre 1 et 3 achats remisés. Regardons maintenant, en moyenne, parmi les consommateurs observés sans enfant à charge ceux qui acceptent une offre d’achat lors d’une campagne de remise.

Comportement des consommateurs observés sans enfant à charge face aux promotions
Numéro de campagne % % cummulés
Offre acceptée lors de la première campagne de remise 11.411 11.411
Offre acceptée lors de la deuxième campagne de remise 1.983 13.394
Offre acceptée lors de la troisième campagne de remise 6.321 19.715
Offre acceptée lors de la quatrième campagne de remise 10.027 29.742
Offre acceptée lors de la cinquième campagne de remise 9.547 39.288

Environ 39% des consommateurs observés sans enfant à charge effectuant des achats remisés acceptent une offre d’achat lors des 5 premières campagnes de remises.Seulement, 17.123 % des consommateurs observés sans enfant à charge effectuant des achats remisés acceptent une offre d’achat lors de la dernière campagne de remise.

Achats en fonction des lieux de vente pour les consommateurs observés sans enfant à charge
Nombre d’achats total Lieux de vente
6370 Achats sur site web
5074 Achats sur catalogue
9242 Achats en magasin
5575 Visites du site web durant le dernier mois

Dans le cas des consommateurs sans enfant à charge, on remarque que le nombre total d’achats effectués en magasin est significativement plus important.

Conclusion :

Pour ce qui est des consommateurs observés sans enfant à charge, il serait judicieux de choisir une stratégie commerciale basée sur la promotion de produits vendus en magasin afin de les attirer et d’accroitre leur consommation et par conséquent les profits de l’entreprise.

3.2 Revenu compris [45000;65000]

À l’aide du tableau de taux de participation, on observe 637 consommateurs observés avec un revenu compris entre 45000 et 65000 dans notre base de données.
Taux de participation en fonction du revenu
1500-15000 15000-20000 20000-30000 30000-45000 45000-65000 65000-80000 80000-700000
Effectifs 52.000 75.000 243.00 528.000 637.000 457.000 217.000
Taux de participation 0.024 0.034 0.11 0.239 0.288 0.207 0.098
Observons si ce type de consommateurs à tendance à effectuer des achats remisés.
Nombre d’achats avec remise
1 2 3 4 5 6 7 8 9 10 11 12 13
Effectif 167 149 102 81 49 36 23 11 5 4 4 3 3

100% des consommateurs observés avec un revenu compris entre 45000 et 65000 effectuent des achats remisés. Regardons maintenant, en moyenne, parmi les consommateurs observés avec un revenu compris entre 45000 et 65000 ceux qui acceptent une offre d’achat lors d’une campagne de remise.

Comportement des consommateurs observés ayant un revenu compris entre 45000 et 65000 face aux promotions
Numéro de campagne % % cummulés
Offre acceptée lors de la première campagne de remise 2.412 2.412
Offre acceptée lors de la deuxième campagne de remise 1.874 4.285
Offre acceptée lors de la troisième campagne de remise 6.584 10.87
Offre acceptée lors de la quatrième campagne de remise 10.128 20.998
Offre acceptée lors de la cinquième campagne de remise 0.499 21.497

Environ, 21% des consommateurs observés avec un revenu compris entre 45000 et 65000 effectuant des achats remisés acceptent une offre d’achat lors des 5 premières campagnes de remises.Seulement, 10.989 % des consommateurs observés avec un revenu compris entre 45000 et 65000 effectuent des achats avec remise lors de la dernière campagne de remise.

Achats en fonction des lieux de vente pour les consommateurs observés avec un revenu compris entre 45000 et 65000
Nombre d’achats total Lieux de vente
3246 Achats sur site web
1643 Achats sur catalogue
4211 Achats en magasin
3512 Visites du site web durant le dernier mois

Dans le cas des consommateurs avec un revenu compris entre 45000 et 65000, on remarque que le nombre total d’achats effectués en magasin est plus important.

Conclusion :

Pour ce qui est des consommateurs observés avec un revenu compris entre 45000 et 65000, il serait judicieux de choisir une stratégie commerciale basée sur une campagne de publicité promotionnelle des produits vendus en magasin afin d’attirer ces consommateurs et d’accroître leurs consommations et par conséquent les profits de l’entreprise.

3.3 Revenu compris [65000;80000]

À l’aide du tableau de taux de participation on observe 457 consommateurs observés avec un revenu compris entre 65000 et 80000 dans notre base de données.

Taux de participation en fonction du revenu
1500-15000 15000-20000 20000-30000 30000-45000 45000-65000 65000-80000 80000-700000
Effectifs 52.000 75.000 243.00 528.000 637.000 457.000 217.000
Taux de participation 0.024 0.034 0.11 0.239 0.288 0.207 0.098

Observons si ce type de consommateurs à tendance à effectuer des achats remisés.

Nombre d’achats avec remise
0 1 2 3 4 5 6 7 9 11 15
Effectif 2 270 94 44 26 10 2 6 1 1 1

99.562% des consommateurs observés ayant un revenu compris entre 65000 et 80000 effectuent des achats remisés. Regardons maintenant, en moyenne, parmi les consommateurs observés avec un revenu compris entre 65000 et 80000 ceux qui acceptent une offre d’achat lors d’une campagne de remise.

Comportement des consommateurs observés ayant un revenu compris entre 65000 et 80000 à charge face aux promotions
Numéro de campagne % % cummulés
Offre acceptée lors de la première campagne de remise 13.4 13.4
Offre acceptée lors de la deuxième campagne de remise 0.958 14.357
Offre acceptée lors de la troisième campagne de remise 4.331 18.689
Offre acceptée lors de la quatrième campagne de remise 9.101 27.789
Offre acceptée lors de la cinquième campagne de remise 9.271 37.061

Environ, 37% des consommateurs observés avec un revenu compris entre 45000 et 65000 effectuant des achats remisés acceptent une offre d’achat lors des 5 premières campagnes de remises.15.536 % des consommateurs observés avec un revenu compris entre 65000 et 80000 effectuent des achats avec remise lors de la dernière campagne de remise.

Achats en fonction des lieux de vente pour les consommateurs observés avec un revenu compris entre 65000 et 80000
Nombre d’achats total Lieux de vente
2521 Achats sur site web
2302 Achats sur catalogue
3874 Achats en magasin
1605 Visites du site web durant le dernier mois

Dans le cas des consommateurs avec un revenu compris entre 65000 et 80000, on remarque que le nombre total d’achats effectués en magasin est plus important.

Conclusion :

Pour ce qui est des consommateurs observés avec un revenu compris entre 65000 et 80000, il serait judicieux une fois de plus de choisir une stratégie commerciale basée sur une campagne de publicité promotionnelle des produits vendus en magasin afin d’attirer ces consommateurs et d’accroître leurs consommations et par conséquent les profits de l’entreprise.

3.4 Revenu compris [80000;700000]

À l’aide du tableau de taux de participation, on observe 217 consommateurs observés avec un revenu compris entre 80000 et 700000 dans notre base de données.

Taux de participation en fonction du revenu
1500-15000 15000-20000 20000-30000 30000-45000 45000-65000 65000-80000 80000-700000
Effectifs 52.000 75.000 243.00 528.000 637.000 457.000 217.000
Taux de participation 0.024 0.034 0.11 0.239 0.288 0.207 0.098
Observons si ce type de consommateurs à tendance à effectuer des achats remisés.
Nombre d’achats avec remise
0 1 2 3 4 10 15
Effectif 35 165 7 5 2 1 2

28.571% des consommateurs observés avec un revenu compris entre 80000 et 700000 effectuent des achats remisés. Regardons maintenant, en moyenne, parmi les consommateurs observés avec un revenu compris entre 80000 et 700000 ceux qui acceptent une offre d’achat lors d’une campagne de remise.

Comportement des consommateurs observés ayant un revenu compris entre 80000 et 700000 face aux promotions
Numéro de campagne % % cummulés
Offre acceptée lors de la première campagne de remise 48.63 48.63
Offre acceptée lors de la deuxième campagne de remise 3.274 51.904
Offre acceptée lors de la troisième campagne de remise 6.263 58.166
Offre acceptée lors de la quatrième campagne de remise 10.945 69.111
Offre acceptée lors de la cinquième campagne de remise 28.958 98.069

Environ, 98% des consommateurs observés avec un revenu compris entre 80000 et 700000 effectuant des achats remisés acceptent une offre d’achat lors des 5 premières campagnes de remises.40.092 % des consommateurs observés avec un revenu compris entre 80000 et 700000 effectuent des achats avec remise lors de la dernière campagne de remise.

Achats en fonction des lieux de vente pour les consommateurs observés avec un revenu compris entre 80000 et 700000
Nombre d’achats total Lieux de vente
1101 Achats sur site web
1390 Achats sur catalogue
1785 Achats en magasin
511 Visites du site web durant le dernier mois

Dans le cas des consommateurs avec un revenu compris entre 80000 et 700000, on remarque que le nombre total d’achats effectués en magasin est plus important.

Conclusion :

Pour ce qui est des consommateurs observés avec un revenu compris entre 80000 et 7000000, il serait judicieux de choisir une stratégie commerciale basée sur une campagne de visibilité (par la publicité) des produits vendus en magasin afin d’attirer ces consommateurs et d’accroître leurs consommations et par conséquent les profits de l’entreprise.

3.5 Sans adolescent à charge

À l’aide du tableau de taux de participation, on observe 1144 consommateurs observés sans adolescent à charge dans notre base de données.

Taux de participation en fonction de Teenhome
0 1 2
Effectifs 1144.000 1014.000 51.000
Taux de participation 0.518 0.459 0.023
Observons si ce type de consommateurs à tendance à effectuer des achats remisés.
Nombre d’achats avec remise
0 1 2 3 4 5 6 7 8 15
39 736 195 102 39 10 13 5 1 4

96.591% des consommateurs observés sans adolescent à charge effectuent des achats remisés. Regardons maintenant, en moyenne, parmi les consommateurs observés sans adolescent à charge ceux qui acceptent une offre d’achat lors d’une campagne de remise.

Comportement des consommateurs observés sans adolescent à charge face aux promotions
Numéro de campagne % % cummulés
Offre acceptée lors de la première campagne de remise 10.96 10.96
Offre acceptée lors de la deuxième campagne de remise 1.423 12.384
Offre acceptée lors de la troisième campagne de remise 8.209 20.592
Offre acceptée lors de la quatrième campagne de remise 5.492 26.084
Offre acceptée lors de la cinquième campagne de remise 10.475 36.559

Environ, 37% des consommateurs observés sans adolescent à charge effectuant des achats remisés acceptent une offre d’achat lors des 5 premières campagnes de remises. 20.542 % des consommateurs observés sans adolescent à charge effectuent des achats avec remise lors de la dernière campagne de remise.

Achats en fonction des lieux de vente pour les consommateurs observés sans adolescent à charge
Nombre d’achats total Lieux de vente
4179 Achats sur site web
3432 Achats sur catalogue
6461 Achats en magasin
5717 Visites du site web durant le dernier mois

Dans le cas des consommateurs sans adolescent à charge, on remarque que le nombre total d’achats effectués en magasin est plus important.

Conclusion :

Pour ce qui est des consommateurs observés sans adolescent à charge, il serait judicieux une fois encore de choisir une stratégie commerciale basée sur la promotion de produits vendus en magasin afin d’attirer ces consommateurs et d’accroître leurs consommations et par conséquent les profits de l’entreprise.

3.6 Deux adolescents à charge

À l’aide du tableau de taux de participation, on observe 51 consommateurs observés avec deux adolescents à charge dans notre base de données.

Taux de participation en fonction de Teenhome
0 1 2
Effectifs 1144.000 1014.000 51.000
Taux de participation 0.518 0.459 0.023
Observons si ce type de consommateurs à tendance à effectuer des achats remisés.
Nombre d’achats avec remise
0 1 2 3 4 5 6 7 9 10 11
1 11 9 12 4 4 4 3 1 1 1

98.039% des consommateurs observés avec deux adolescents à charge effectuent des achats remisés. Regardons maintenant, en moyenne, parmi les consommateurs observés avec deux adolescents à charge ceux qui acceptent une offre d’achat lors d’une campagne de remise.

Comportement des consommateurs observés ayant deux adolescents à charge face aux promotions
Numéro de campagne % % cummulés
Offre acceptée lors de la première campagne de remise 10.96 10.96
Offre acceptée lors de la deuxième campagne de remise 1.423 12.384
Offre acceptée lors de la troisième campagne de remise 8.209 20.592
Offre acceptée lors de la quatrième campagne de remise 5.492 26.084
Offre acceptée lors de la cinquième campagne de remise 10.475 36.559

Environ, 37% des consommateurs observés avec deux adolescents à charge effectuant des achats remisés acceptent une offre d’achat lors des 5 premières campagnes de remises. Seulement9.804 % des consommateurs observés avec deux adolescents à charge effectuent des achats avec remise lors de la dernière campagne de remise.

Achats en fonction des lieux de vente pour les consommateurs observés avec deux adolescents à charge
Nombre d’achats total Lieux de vente
247 Achats sur site web
122 Achats sur catalogue
315 Achats en magasin
280 Visites du site web durant le dernier mois

Dans le cas des consommateurs avec deux adolescents à charge, on remarque que le nombre total d’achats effectués en magasin est plus important.

Conclusion :

Pour ce qui est des consommateurs observés avec deux adolescents à charge, il serait judicieux de choisir une stratégie commerciale basée sur une campagne promotionnelle de produits vendus en magasin afin d’attirer ces consommateurs et d’accroître leurs consommations et par conséquent les profits de l’entreprise.

3.7 Veufs

On a vu avec le taux de participation qu’ils étaient 76 dans la base de données.

Taux de participation en fonction de l’état civil
Divorced Married Single Together Widow
Effectifs 232.000 857.000 471.000 573.000 76.000
Taux de participation 0.105 0.388 0.213 0.259 0.034
Observons si ce type de consommateurs à tendance à effectuer des achats remisés.
Nombre d’achats effectués avec remise
0 1 2 3 4 5 6 11
3 29 17 12 6 3 5 1
96.053% des consommateurs observés veufs effectuent des achats remisés. Regardons maintenant, en moyenne, parmi les consommateurs observés veufs ceux qui acceptent une offre d’achat lors d’une campagne de remise.
Comportement des consommateurs observés veufs face aux promotions
Numéro de campagne % % cummulés
Offre acceptée lors de la première campagne de remise 7.042 7.042
Offre acceptée lors de la deuxième campagne de remise 1.239 8.282
Offre acceptée lors de la troisième campagne de remise 5.095 13.377
Offre acceptée lors de la quatrième campagne de remise 13.125 26.502
Offre acceptée lors de la cinquième campagne de remise 7.456 33.958

Environ 34% des consommateurs observés veufs effectuant des achats remisés acceptent une offre d’achat lors des 5 premières campagnes de remise. Seulement23.684 % des consommateurs observés veufs effectuent des achats avec remise lors de la dernière campagne de remise.

Achats en fonction des lieux de vente pour les consommateurs étant veufs
Nombre d’achats total Lieux de vente
351 Achats sur site web
251 Achats sur catalogue
483 Achats en magasin
375 Visites du site web durant le dernier mois

Dans le cas des consommateurs veufs, on remarque que le nombre total d’achats effectués en magasin est plus important.

Conclusion :

Pour ce qui est des consommateurs observés veufs, il serait judicieux de choisir une stratégie commerciale basée sur campagne de visibilité (par la publicité) des produits vendus en magasin afin d’attirer ces consommateurs et d’accroître leurs consommations et par conséquent les profits de l’entreprise.

3.8 Divorcés

On a vu avec le taux de participation qu’ils étaient 232 dans la base de données.

Taux de participation en fonction de l’état civil
Divorced Married Single Together Widow
Effectifs 232.000 857.000 471.000 573.000 76.000
Taux de participation 0.105 0.388 0.213 0.259 0.034

Observons si ce type de consommateurs à tendance à effectuer des achats remisés.

Nombre d’achats effectués avec remise
0 1 2 3 4 5 6 7 8 11 15
5 91 50 38 19 13 8 3 3 1 1

97.845% des consommateurs observés divorcés effectuent des achats remisés. Regardons maintenant, en moyenne, parmi les consommateurs observés veufs ceux qui acceptent une offre d’achat lors d’une campagne de remise.

Comportement des consommateurs observés divorcés face aux promotions
Numéro de campagne % % cummulés
Offre acceptée lors de la première campagne de remise 5.455 5.455
Offre acceptée lors de la deuxième campagne de remise 2.082 7.537
Offre acceptée lors de la troisième campagne de remise 8.723 16.26
Offre acceptée lors de la quatrième campagne de remise 7.044 23.304
Offre acceptée lors de la cinquième campagne de remise 4.553 27.856

Environ 28% des consommateurs observés divorcés effectuant des achats remisés acceptent une offre d’achat lors des 5 premières campagnes de remise. Seulement20.69 % des consommateurs observés divorcés effectuent des achats avec remise lors de la dernière campagne de remise.

Achats en fonction des lieux de vente pour les consommateurs étant divorcés
Nombre d’achats total Lieux de vente
1000 Achats sur site web
620 Achats sur catalogue
1350 Achats en magasin
1273 Visites du site web durant le dernier mois

Dans le cas des consommateurs divorcés, on remarque que le nombre total d’achats effectués en magasin est plus important.

Conclusion :

Pour ce qui est des consommateurs observés divorcés, il serait judicieux de choisir une stratégie commerciale basée sur campagne promotionnelle des produits vendus en magasin afin d’attirer ces consommateurs et d’accroître leurs consommations et par conséquent les profits de l’entreprise.

3.9 Célibataires

À l’aide du tableau de taux de participation, on observe 471 consommateurs sont des célibataires.

Taux de participation en fonction de l’état civil
Divorced Married Single Together Widow
Effectifs 232.00 857.00 471.00 573.00 76.00
Taux de participation 0.11 0.39 0.21 0.26 0.03

Observons si ce type de consommateurs à tendance à effectuer des achats remisés.

Effectif des consommateurs observés étant célibataires en fonction du nombre d’achats avec remise
0 1 2 3 4 5 6 7 8 9 10 15
Effectif 14 223 100 54 44 12 9 5 3 5 1 1

Sur 471 Single, 14 ont acheté leurs achats sans remise. On remarque en général que les célibataires effectuent en général entre 1 et 4 achats avec remise. Regardons maintenant, si les consommateurs étant célibataires sont sensibles aux différentes campagnes de remises.

Comportement des consommateurs observés célibataires face aux promotions
Numéro de campagne % % cummulés
Offre acceptée lors de la première campagne de remise 6.803 6.803
Offre acceptée lors de la deuxième campagne de remise 1 7.803
Offre acceptée lors de la troisième campagne de remise 8.091 15.894
Offre acceptée lors de la quatrième campagne de remise 6.131 22.025
Offre acceptée lors de la cinquième campagne de remise 5.494 27.518
On remarque, que les célibataires ne sont pas très sensibles aux achats selon les différentes remises. En effet, seulement 8 % des célibataires ayant effectués des achats avec remises, font des achats pour la troisième campagne de remise. Le pourcentage d’achats avec remise pour les autres campagnes sont moindres. Afin, de détailler l’étude et de cibler les clients, nous pouvons regarder le lieux de marché sur lesquelles ceux-ci font leurs achats :
Achats en fonction des lieux de vente pour les consommateurs étant célibataires
Nombre d’achats total Lieux de vente
1814 Achats sur site web
1240 Achats sur catalogue
2674 Achats en magasin
2487 Visites du site web durant le dernier mois

Globalement on remarque que les célibataires effectuent plusieurs achats en magasin et en ligne. Cependant, on remarque que par rapport aux autres lieux de marchés, l’achat sur catalogue est moins fréquent.

Pour conclure, on peut dire que les individus célibataires des clients sont assez sensibles aux achats avec remises. En effet, parmi les clients célibataires 97.03 % font des achats avec remises. Ces clients, sont affectés par la troisième campagne de remise. Enfin, les célibataires dépensent beaucoup en magasin et sur internet c’est pourquoi il faut privilégier la fidélisation des clients en mettant en place des promotions sur ces lieux de marchés là.

3.10 Doctorat

À l’aide du tableau de taux de participation on observe 478 consommateurs sont diplômés d’un doctorat.

Taux de participation en fonction du niveau d’étude
2n Cycle Basic Graduation Master PhD
Effectifs 200.000 54.000 1114.000 363.000 478.000
Taux de participation 0.091 0.024 0.504 0.164 0.216
Effectif des consommateurs observés étant dipômé d’un PhD en fonction du nombre d’achats avec remise
0 1 2 3 4 5 6 7 8 9 10 11 15
Effectif 13 197 112 72 31 21 14 5 3 3 2 2 3

Sur 478 clients ayant un niveau de diplôme PhD (doctorat), 223 personnes effectuent un achat avec remise et 100 personnes effectuent jusqu’à 2 achats avec remises. Au-delà de ces nombres d’achats, l’effectif de personnes effectuant des achats avec remise diminue.

Comportement des consommateurs diplômés d’un PhD face aux promotions
Numéro de campagne % % cummulés
Offre acceptée lors de la première campagne de remise 6.696 6.696
Offre acceptée lors de la deuxième campagne de remise 1.994 8.69
Offre acceptée lors de la troisième campagne de remise 8.112 16.802
Offre acceptée lors de la quatrième campagne de remise 8.646 25.448
Offre acceptée lors de la cinquième campagne de remise 6.623 32.071

On remarque que les parmi les clients doctorants effectuant des achats avec remise, 8.6 % de ceux-ci effectuent des achats lors de la quatrième campagne. Par rapport aux autres campagnes, les clients doctorants, sont plus sensibles à la cette campagne. Regardons maintenant les lieux de marchés :

Achats en fonction des lieux de vente pour les consommateurs diplômés d’un doctorat
Nombre d’achats total Lieux de vente
2117 Achats sur site web
1434 Achats sur catalogue
2907 Achats en magasin
2505 Visites du site web durant le dernier mois

Globalement on remarque que les clients diplômés d’un doctorat effectuent plusieurs achats en magasin et en ligne. En effet, le nombre de personnes ayant effectué un achat en ligne au cours du dernier mois reste élevé. Cependant on remarque que par rapport aux autres lieux de marchés, l’achat sur catalogue est moins fréquent.


Pour conclure, on peut dire que les clients doctorants sont des clients très sensibles aux remises. En effet sur 478 diplômés d’un PhD, seul 97.28 % font des achats avec remises. On remarque que ces clients, sont plus sensibles à la quatrième campagne que les autres. Au niveau des lieux de marchés, comme vu avec les célibataires, les docteurs achètent plus en ligne et en magasin que sur le catalogue. Enfin, le nombre d’achats par mois en ligne est maintenu sur la période. C’est pourquoi il faut privilégier les promotions de type quatrième campagne, la vente en boutique et la fidélisation des clients via le site internet de l’entreprise.

3.11 Graduation

À l’aide du tableau de taux de participation, on observe 1114 consommateurs ont un diplôme Graduation.

Taux de participation en fonction du niveau d’étude
2n Cycle Basic Graduation Master PhD
Effectifs 200.000 54.000 1114.000 363.000 478.000
Taux de participation 0.091 0.024 0.504 0.164 0.216
Effectif des consommateurs observés étant diplomé d’un Graduation en fonction du nombre d’achats avec remise
0 1 2 3 4 5 6 7 8 9 10 11 12 15
Effectif 22 483 248 143 101 46 27 24 8 3 2 1 3 3

On remarque les clients dotés d’un diplôme Graduation sont affectés par le nombre d’achats avec remise. En effet sur 43 % des personnes diplômés font 1 achat en ligne, et 22 % font 2 achats en ligne. Au total sur les personnes diplômées, 98.03 % font des achats avec remise.

Comportement des consommateurs diplômés d’un Graduation face aux promotions
Numéro de campagne % % cummulés
Offre acceptée lors de la première campagne de remise 7.633 7.633
Offre acceptée lors de la deuxième campagne de remise 1.346 8.979
Offre acceptée lors de la troisième campagne de remise 6.853 15.832
Offre acceptée lors de la quatrième campagne de remise 6.424 22.256
Offre acceptée lors de la cinquième campagne de remise 6.422 28.678

On remarque que 7,6 % des diplômés d’un dipolôme Graduation et effectuant des achats avec remise, effectuent des achats lors de la première campagne.
Au total 29 % des diplômés effectuant des achats avec remises, effectuent des soldes jusqu’à la cinquième campagne. Regardons maintenant les lieux de marchés :

Achats en fonction des lieux de vente pour les consommateurs diplômés d’un Graduation
Nombre d’achats total Lieux de vente
4586 Achats sur site web
3046 Achats sur catalogue
6508 Achats en magasin
5891 Visites du site web durant le dernier mois

Globalement on remarque que les clients d’un niveau de diplôme Graduation, effectuent des achats sur tous les marchés. Enfin, on remarque que le nombre total d’achats en magasin reste quand même plus élevé que les achats en ligne, même si le nombre de visite sur le site web de l’entreprise reste très élevée au cours du dernier mois.


Pour conclure, on peut dire que les individus diplômés d’un niveau Graduation sont très affectés par les achats avec remises, surtout pour la première affecté par la première campagne de remise. Mais notamment sont nombreux à achetés en magasin, puis en ligne.

3.12 2n Cycle

À l’aide du tableau de taux de participation, on observe 200 consommateurs observés étant célibataires.

Taux de participation en fonction du niveau d’étude
2n Cycle Basic Graduation Master PhD
Effectifs 200.000 54.000 1114.000 363.000 478.000
Taux de participation 0.091 0.024 0.504 0.164 0.216
Effectif des consommateurs observés étant diplomé d’un 2nd Cycle en fonction du nombre d’achats avec remise
0 1 2 3 4 5 6 7 8 13 15
Effectif 2 90 53 19 15 9 6 2 2 1 1

Parmi les étudiant diplômés d’un 2n Cycle, 99 % effectuent des achats avec remises. En effet, on remarque que 143 personnes font au plus 1 achat avec remise.

Comportement des consommateurs diplômés d’un 2nd Cycle face aux promotions
Numéro de campagne % % cummulés
Offre acceptée lors de la première campagne de remise 7.527 7.527
Offre acceptée lors de la deuxième campagne de remise 0.934 8.461
Offre acceptée lors de la troisième campagne de remise 7.422 15.883
Offre acceptée lors de la quatrième campagne de remise 3.964 19.847
Offre acceptée lors de la cinquième campagne de remise 4.219 24.065

Ce tableau nous montre que les clients diplômés d’un 2n Cycle et effectuant des achats avec remises, sont plus sensibles aux premières et troisième campagne. En effet, 7.53 % de ceux-ci font des achats pour la première campagne de remise, et 7.42 % pour la troisième campagne. Regardons maintenant, les différentes lieux de marchés sur lesquelles ces clients font leurs achats :

Achats en fonction des lieux de vente pour les consommateurs diplômés d’un 2n Cycle
Nombre d’achats total Lieux de vente
753 Achats sur site web
471 Achats sur catalogue
1112 Achats en magasin
1092 Visites du site web durant le dernier mois

Globalement on remarque que les achats en magasin sont plus fréquents pour clients ayant un niveau de diplôme 2n Cycle.


Conclusion, les clients dotés d’un diplôme de 2n Cycle, sont affectés par les remises, particulièrement par la première et troisème campagne de remise. De plus, ils effectuent en général plus d’achats en boutique que sur le site ou sur le catalogue de l’entreprise.

4 Dépendance

Les consommateurs cibles de notre étude sont : Divorced, Widow, Single, PhD,Graduation,2n Cycle, 0 enfant, 2 adolescents,0 adolescent et gros revenu. Il serait interessant de regarder la corrélation de certaines de ces variables pour affirmer ou infirmer nos hypothèses. Par exemple, on peut émettre l’hypothèse que les consommateurs avec un gros revenu possèdent un diplôme PhD ou Graduation.

4.1 Matrice de corrélation (quantitatives)

Nos variables Education et Marital_Statuts sont des variables qualitatives. Regardons la matrice de corrélation sur notre base de données sans ces deux variables : On remarque que les dépenses en consommation de produits sont corrélées entre elles, avec les lieux de marchés et le revenu. On voit également la relation décroissante entre le nombre d’enfants et la dépense en consommation. Ce qui concorde bien avec nos résultats précédents.

4.2 Rapport de corrélation (quanti-quali)

Calculons le rapport de corrélation entre des variables quantitatives et qualitatives. Pour cela, on étudie la variabilité de la variable quantitative induit par les modalités (les différentes classes) de la variable qualitative. On calcule alors, la variance totale de notre variable quantitative et la variance inter-groupe pour obtenir le rapport de corrélation, \(\eta^2\) :

  • Hypothèse : Les consommateurs avec un revenu élevé sont-ils liés avec les consommateurs de niveau d’étude élevé ?

L’indicateur est 0.0856, il est plus proche de 0 que de 1. Donc, ces variables ne sont pas liées.


  • Hypothèse : Les consommateurs avec un nombre d’enfant élevé sont-ils liés avec certaines modalités de l’état civil ?

L’indicateur est 0.0057, il est plus proche de 0 que de 1. Donc, ces variables ne sont pas liées.


  • Hypothèse : Les consommateurs avec un nombre d’adolescents élevé sont-ils liés avec certaines modalités de l’état civil ?

L’indicateur est 0.0132, il est plus proche de 0 que de 1. Donc, ces variables ne sont pas liées.

4.3 \(\chi^2\) (qualitatives)

\(\chi^2_{obs}\) 16.285
\(p.value\) 0.433

La p.value est supérieure au risque de première espèce (5%) donc on conserve l’hypothèse d’indépendance des lignes et des colonnes du tableau de contingence. Donc les variables Education et Marital_Status ne sont pas liées. Regardons quand même si nos modalités ne sont pas sûr ou sous représentées : Comme les résidus du test appartiennent tous à \([-2;2]\), aucune de nos modalités sont sûr ou sous représentées.

5 Analyse par Composantes Principales

Nous allons procéder a une ACP (Analyse par Composantes Principales), pour cela il est nécessaire d’enlever toutes les variables qualitatives du dataframe.

5.1 Etudes des inerties

Recherchons les axes qui permettent d’observer la population en conservant un maximum de dispersion.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Inerties 6.6 1.9 1.9 1.3 0.9 0.8 0.7 0.7 0.6 0.6 0.6 0.6 0.5 0.4 0.4 0.4 0.3 0.2 0.2 0.2
Inerties relatives % 33.2 9.6 9.4 6.7 4.7 4.2 3.7 3.5 3.1 3.1 2.9 2.8 2.3 2.1 2.0 1.9 1.6 1.2 1.1 0.9
Inerties relatives cumulées 33.2 42.8 52.2 58.9 63.6 67.8 71.5 75.0 78.1 81.2 84.1 86.9 89.2 91.4 93.4 95.2 96.8 98.0 99.1 100.0

On peux voir que la valeur propre de la \(5^{ème}\) dimension est de 0.9, ce qui est inférieur à 1 donc on ne le conserve pas. Et comme la \(4^{ème}\) dimension a une valeur propre proche de 1, on ne s’y intéresse pas également car elle n’apporte pas d’informations supplémentaire.

Ici, la \(1^{ère}\) dimension nous permet de voir 33.2%% des variables donc on la conserve. Cependant, les axes factoriels 2 et 3 ne nous permettent pas de voir beaucoup plus d’informations. Il serait judicieux de regrouper des variables entre elles, comme les variables associées aux campagnes de remise et celles associées au nombre de mineurs dans un foyer.

Nouvelles inerties :

1 2 3 4 5 6 7 8 9 10 11 12 13 14
Inerties 6.2 1.7 1.1 0.9 0.7 0.6 0.6 0.4 0.4 0.4 0.3 0.3 0.2 0.2
Inerties relatives % 44.5 12.2 7.9 6.1 4.9 4.5 4.1 3.1 2.9 2.8 2.3 1.8 1.6 1.4
Inerties relatives cumulées 44.5 56.7 64.5 70.6 75.6 80.1 84.2 87.3 90.1 93.0 95.2 97.0 98.6 100.0

Les valeurs propres des deux premiers axes factoriels permettent de voir 56.7% des variables, ce qui en montre plus que les 3 axes dans le cas précédent.

Représentation graphique :

Un effet de coude est visible sur ce diagramme, on va donc garder les deux premiers axes factoriels car les suivants ne permettent pas de distinguer suffisemment les individus.

5.2 Etudes des variables

5.2.1 Informations sur les variables

Ci-dessous, le tableau des coordonnées, des qualités de représentation et des contributions des variables :
F1 F2 contribution(\(F_1\)) contribution(\(F_2\)) Qualité(\(F_1\)) Qualité(\(F_2\)) Qualité(\(F_1,F_2\))
MntWines 0.76 0.30 9.315 5.430 0.580 0.092 0.673
MntFruits 0.71 -0.12 7.989 0.815 0.498 0.014 0.512
MntMeatProducts 0.82 -0.11 10.705 0.738 0.667 0.013 0.679
MntFishProducts 0.73 -0.14 8.580 1.085 0.535 0.018 0.553
MntSweetProducts 0.71 -0.10 8.043 0.542 0.501 0.009 0.510
MntGoldProds 0.57 0.24 5.267 3.354 0.328 0.057 0.385
NumDealsPurchases -0.15 0.81 0.365 38.661 0.023 0.658 0.681
NumWebPurchases 0.54 0.60 4.673 21.343 0.291 0.364 0.655
NumCatalogPurchases 0.82 0.06 10.716 0.182 0.668 0.003 0.671
NumStorePurchases 0.73 0.26 8.629 3.950 0.538 0.067 0.605
NumWebVisitsMonth -0.64 0.43 6.674 10.971 0.416 0.187 0.603
Revenu 0.82 0.06 10.701 0.184 0.667 0.003 0.670
Mineurs -0.59 0.46 5.531 12.296 0.345 0.209 0.554
Promotions 0.42 0.09 2.813 0.450 0.175 0.008 0.183

On remarque que les promotions sont mal représentées sur les deux axes factoriels, la qualité de représentation étant égale à 0.183.

Pour l’axe \(F_1\) les variables contributives sont :

  • Revenu 10.701%,
  • NumCatalogPurchases 10.716%,
  • MntMeatProducts 10.705%

Ces trois variables expliquent 32,122% de l’axe \(F_1\). Il regroupe des revenus, un nombre d’achats sur catalogue et des dépenses en viande élevés.

Pour l’axe \(F_2\) les variables contributives sont :

  • NumDealsPurchases 38.661%,
  • NumWebPurchases 21.343%,
  • Mineurs 12.296%

Ces trois variables expliquent 72.3% de l’axe \(F_2\). Il regroupe le nombre d’achats remisés, le nombre d’achats sur internet et le nombre de mineurs dans le foyer.

On peut le voir graphiquement :

5.2.2 Nuage des variables

Comme vu précédemment, ce sont les mêmes variables qui contribuent le plus aux axes \(F_1\) et \(F_2\). On voit également les fortes corrélations entre certaines variables. Par exemple, Mineurs s’apparente à NumWebVisitsMonth, on peut en déduire que le nombre visites sur le site Web augmente avec le nombre de mineurs dans un foyer. Ou encore, MntWineProducts s’apparente à NumStorePurchases, on peut en déduire que la dépense en vin s’effectue surtout en magasin. Enfin, Revenu s’apparente à NumCataloguePurchases, ce qui signifie que les consommateurs avec un revenus élevés achètent sur catalogue.

Interprétations des axes :

  • Axe \(F_1\) : Les revenus élevés sont associés à une dépense en viande importante et un nombre d’achats sur catalogue conséquent. En effet, les biens accessibles à la vente sur catalogue sont des biens ‘’convoités’’ qui sont la plupart du temps onéreux. Ce qui coïncide avec des revenus élevés.
  • Axe \(F_2\) : Les familles nombreuses sont davantage susceptible d’acheter des produits remisés, d’effectuer des achats sur internet et de faire, en amont de l’achat, des recherches sur internet. On peut déduire que ces consommateurs comparent ou attendent que le prix de l’article baisse.

5.3 Etudes des consommateurs

On remarque que les individus qui contribuent le plus à la construction des axes sont globalement les consommateurs les mieux représentés. Il est donc intéressant de cibler notre analyse sur ces consommateurs. On voit notamment un groupement conséquent d’individus dans le quart de plan négatif. Si on se fit a notre interprétation des axes, ces individus ont des revenus plus faible que la moyenne et ne sont pas des familles nombreuses.

6 Analyse Factorielle des Correspondances

6.1 Choix des variables

La réalisation d’une AFC nécessite l’utilisation de deux variables qualitatives ou bien d’une variable qualitative et d’une variable quantitative regroupée en classes. Dans notre étude, plusieurs couples de variables seraient intéressant à étudier. Notamment, l’étude de la variable Revenu, qui est la variable quantitative Income regroupée en classe, avec une variable qualitative. Voici la liste des variables candidates de notre base de données pour une AFC :

  • Education
  • Marital_Status
  • Revenu

Pour effectuer une AFC il faut qu’il existe une liaison entre les deux variables choisies, puisque l’objectif de l’AFC est de visualiser la nature de cette liaison.

6.1.1 Niveau d’étude et état civil

Tableau de contingence
Divorced Married Single Together Widow
2n Cycle 23 80 36 56 5
Basic 1 20 18 14 1
Graduation 119 429 246 285 35
Master 37 138 75 102 11
PhD 52 190 96 116 24

Test du \(\chi^2\)

\(\chi^2_{obs}\) 16.285
\(p.value\) 0.433

Le test du \(\chi^2\) nous permet de conclure à l’indépendance de ces deux variables.

6.1.2 Niveau d’étude et revenu

Tableau de contingence
1500-15000 15000-20000 20000-30000 30000-45000 45000-65000 65000-80000 80000-700000
2n Cycle 10 8 34 41 56 32 19
Basic 11 13 28 2 0 0 0
Graduation 20 42 131 268 295 250 108
Master 6 8 27 101 119 65 37
PhD 5 4 23 116 167 110 53

Test du \(\chi^2\)

\(\chi^2_{obs}\) 337.6
\(p.value\) 4.16943042062085e-57

Le test du \(\chi^2\) nous permet de conclure à une liaison de ces deux variables. Après avoir effectué une analyse factorielle sur celles-ci, nous avons conclu qu’elles n’étaient pas intéressantes à étudier puisque toute l’information est concentrée sur un seul axe factoriel (94.5% de l’inertie).

6.1.3 État civil et revenu

Tableau de contingence
1500-15000 15000-20000 20000-30000 30000-45000 45000-65000 65000-80000 80000-700000
Divorced 9 3 21 56 76 45 22
Married 18 39 91 205 239 187 78
Single 13 18 56 116 133 76 59
Together 12 15 70 137 160 127 52
Widow 0 0 5 14 29 22 6

Test du \(\chi^2\)

\(\chi^2_{obs}\) 36.656
\(p.value\) 0.0473399507688034

Le test du \(\chi^2\) nous permet de conclure à une liaison entre ces deux variables. Cepandant, après avoir effcectué une analyse factorielle sur celles-ci, nous avons remarqué que cette analyse n’était pas pertinente puisque les variables associées n’ont pas forcément un sens. Pour illustrer nos dires, nous pouvons visualiser l’étude simultanée :

6.1.4 Revenu et dépense totale

A présent, nous décidons de créer une nouvelle variable Dépense représentant la dépense totale (tous produits confondus) des consommateurs. Cette AFC sera donc réalisée avec deux variables quantitatives transformées en variables catégorielles.

Tableau de contingence
1500-15000 15000-20000 20000-30000 30000-45000 45000-65000 65000-80000 80000-700000
5-320 48 75 238 454 215 9 6
320-635 3 0 5 61 170 37 2
635-950 0 0 0 11 126 90 16
950-1265 0 0 0 2 88 138 39
1265-1580 0 0 0 0 27 102 49
1580-1895 1 0 0 0 11 54 54
1985-2210 0 0 0 0 0 23 38
2210-2525 0 0 0 0 0 4 13

Test du \(\chi^2\)

\(\chi^2_{obs}\) 2053.17
\(p.value\) 0

Le test du \(\chi^2\) nous permet de conclure à une liaison entre ces deux variables.

6.2 Tableaux de profils

Contributions au \(\chi^2\)

Tableau des contributions au Khi-2
1500-15000 15000-20000 20000-30000 30000-45000 45000-65000 65000-80000 80000-700000 Sum
5-320 22.3 44.0 131.7 167.0 24.7 198.6 91.0 679.3
320-635 1.9 9.4 21.4 0.4 100.7 7.3 23.5 164.6
635-950 5.7 8.3 26.7 38.2 44.6 31.4 2.6 157.5
950-1265 6.3 9.1 29.4 59.9 1.6 124.0 6.2 236.5
1265-1580 4.2 6.0 19.6 42.5 11.5 115.4 56.8 256.0
1580-1895 1.2 4.1 13.2 28.7 16.1 34.3 151.2 248.8
1985-2210 1.4 2.1 6.7 14.6 17.6 8.5 171.0 221.9
2210-2525 0.4 0.6 1.9 4.1 4.9 0.1 76.9 88.9
Sum 43.4 83.6 250.6 355.4 221.7 519.6 579.2 2053.5
Le tableau des contributions ci-dessus nous permet d’appuyer le résultat du test du \(\chi^2\). Cela nous permet de voir que certaines modalités colonnes sont corrélées avec certaines modalités lignes :

En général, chaque ligne et chaque colonne contribuent significativement au modèle. Certaines contributions apparaissent très élevées en comparaison des autres. Par exemple, si on prend la valeur la plus grande (\(198.6\)), on peut dire que les individus dont la dépense est comprise entre 5 et 320 euros sont soit nombreux, soit très peu à avoir un revenu compris entre 65000 et 80000 euros. Afin de lever cette ambiguïté, observons le tableau des profils-lignes.

Tableau des profils lignes :

Tableau des Profils lignes
1500-15000 15000-20000 20000-30000 30000-45000 45000-65000 65000-80000 80000-700000 Sum
5-320 4.59 7.18 22.78 43.44 20.57 0.86 0.57 99.99
320-635 1.08 0.00 1.80 21.94 61.15 13.31 0.72 100.00
635-950 0.00 0.00 0.00 4.53 51.85 37.04 6.58 100.00
950-1265 0.00 0.00 0.00 0.75 32.96 51.69 14.61 100.01
1265-1580 0.00 0.00 0.00 0.00 15.17 57.30 27.53 100.00
1580-1895 0.83 0.00 0.00 0.00 9.17 45.00 45.00 100.00
1985-2210 0.00 0.00 0.00 0.00 0.00 37.70 62.30 100.00
2210-2525 0.00 0.00 0.00 0.00 0.00 23.53 76.47 100.00
Sum 6.50 7.18 24.58 70.66 190.87 266.43 233.78 800.00

On observe une tendance générale. Il y a une corrélation positive entre le revenu et la dépense totale, plus la dépense est importante plus revenu l’est également. En reprenant notre exemple du tableau des contributions au \(\chi^2\), nous remarquons que les consommateurs avec les modalités dépense [5;320] et revenu [65000;80000] sont peu nombreux.

Tableau des profils colonnes :

Tableau des Profils lignes
1500-15000 15000-20000 20000-30000 30000-45000 45000-65000 65000-80000 80000-700000 Sum
5-320 92.3 100 97.9 86.0 33.8 2.0 2.8 414.8
320-635 5.8 0 2.1 11.6 26.7 8.1 0.9 55.2
635-950 0.0 0 0.0 2.1 19.8 19.7 7.4 49.0
950-1265 0.0 0 0.0 0.4 13.8 30.2 18.0 62.4
1265-1580 0.0 0 0.0 0.0 4.2 22.3 22.6 49.1
1580-1895 1.9 0 0.0 0.0 1.7 11.8 24.9 40.3
1985-2210 0.0 0 0.0 0.0 0.0 5.0 17.5 22.5
2210-2525 0.0 0 0.0 0.0 0.0 0.9 6.0 6.9
Sum 100.0 100 100.0 100.1 100.0 100.0 100.1 700.2

Globalement, on observe que les individus ayant les revenus les moins élevés ne dépensent pas en quantité. Cependant, l’inverse n’est pas flagrant, lorsque l’on observe les revenus les plus élevés avec une dépense conséquente le lien n’est pas autant marqué.

6.3 Études des inerties

La valeur moyenne des axes est égale à 16.667%. Les axes expliquant moins de 16.667% de l’inertie totale seront trop petits pour être conservé pour une analyse plus appronfondie. De plus, nous observons un “effet de coude”. Nous conservons donc seulement les axes factoriels 1 et 2.

6.4 Étude des profils colonnes

6.4.1 Qualité de représentation \(F_1\),\(F_2\)

Une qualité de représentation (cos2) proche de 1 correspond à une colonne bien représentée. Dans notre cas, on observe que toutes les colonnes (classes de revenu) sont bien représentées (\(cos2 > 0.75\)).

6.4.2 Contributions de \(F_1\),\(F_2\)

Les profils colonnes 65000-80000, 80000-700000 et 45000-65000 sont ceux qui contribuent le plus aux axes factoriels 1 et 2.

6.4.3 Nuage des profils colonnes

On remarque qu’aucun profil colonne se rapproche du comportement moyen. On observe que 80000-700000 est le profil colonne s’éloignant le plus du comportement moyen : on parle de modalité rare dans ce cas. De plus, on observe un “effet guttman”. Cela signifie que l’axe \(F_1\) oppose les revenus extrêmes, tandis que l’axe \(F_2\) oppose les revenus moyens aux revenus plutôt extrêmes. L’observation d’un effet guttman n’est pas surprenante ici, puiqu’il existe une structure d’ordre à la fois sur l’ensemble des lignes et sur celui des colonnes et que ces structures sont associées.

6.5 Étude des profils lignes

6.5.1 Qualité de représentation \(F_1\),\(F_2\)

Une qualité de représentation (cos2) proche de 1 correspond à une colonne bien représentée. Dans notre cas, on observe que toutes les colonnes (classes de revenu) sont bien représentées (\(cos2 > 0.75\)).

6.5.2 Contributions de \(F_1\),\(F_2\)

Le profil colonne contribuant le plus à l’axe \(F_1\) est 5-320. On observe une petite contribution du profil colonne 1265-1580 et une moindre contribution des profils colonnes 950-1265 et 1580-1895. Les profils colonnes 320-635, 635-950 et 1985-2210 sont ceux qui contribuent le plus à l’axe \(F_2\).

6.5.3 Nuage des profils lignes

Dans un premier temps, nous remarquons que l’axe \(F_1\) oppose la dépense la plus faible aux autres dépenses. Ensuite, nous observons que les dépenses moyennes (non extrêmes) opposent les dépenses extrêmes à l’axe \(F_2\).

6.6 Étude simultanée

On associe les revenus les plus élevés aux dépenses les plus importantes car ils sont dans le même quart de plan. Cela semble logique puisque un revenu important n’est pas synonyme de dépenses moindres.

7 Aanalyse des Correspondances Multiples

Dans cette partie de l’étude, nous appliquons à notre base de données une Analyse des Correspondances Multiples. Cette analyse suggère une nouvelle modification de la base de données, c’est-à-dire transformer nos variables quantitatives en classes afin de faire une étude sur des données qualitatives.

Nettoyage de la base :

  • Nous avons recodé les variables en factor.
  • Nous avons fait des classes pour intégrer les variables quantitatives dans l’étude (années de naissances, achats sur les différents lieux de marchés, dépenses pour les produits..)
  • Nous avons également recodé la date d’adhésion des clients.
  • Nous avons enlevé les variables inemployées dans notre étude.

7.1 Liens entre variables qualitatives

Nous pouvons observer les liaisons potentielles entre les variables qualitatives. Pour cela, nous avons effectué une matrice représentant les V.Cramer. Il mesure l’intensité de liaison, celui-ci est compris entre \([-1,1]\).

La variable Revenu en particulier est liée à beaucoup de variables telles que : le nombre d’enfants, la cinquième campagne de remise, les achats en boutique et la dépense en vin. De plus, nous remarquons de la liaison pour la cinquième campagne de remise avec la dépense en vin. Enfin, nous observons une liaison entre les achats sur catalogue et la dépense en viande.

7.2 Étude des inerties

L’inertie d’un axe mesure la liaison entre l’axe et les variables. Ainsi, nous conservons 4 axes puisqu’on observe un “coude” pour le cinquième axe.

7.3 Études des variables

7.3.1 Contribution sur \(F_1, F_2, F_3, F_4\)

Nous remarquons une tendance générale de la contributuon des modalités pour les deux premiers axes. Contrairement aux deux autres, qui montrent une tendance particulère (peu de variables contribuent à ces axes).Grâce à un datatable, nous pouvons voir quelles modalités contribuent le plus aux différentes dimensions.

Pour expliquer la contribution des variables aux axes, nous pouvons regarder le rapport de corrélation de celles-ci à l’aide d’un graphique. Nous remarquons, que la variable Revenu contribue aux deux axes. La variable Teenhome semble contribuer essentiellement à la dimension 2. Tandis que, la dépense en vin, semble se rapprocher de l’axe 1. Enfin, l’axe F3 est principalement expliqué par la dépense en viande et l’achat sur catalogue.

7.3.2 Nuage des variables

Interprétations des axes :

  • Axe \(F_1\) : Nous remarquons des modalités qui s’éloignent vers la droite, du barycentre du nuage (individu qui possède un peu de toutes les modalités) telles que : les revenus les plus élevés 80000-700000, la première et la cinquième campagne de remise, les dépenses les plus hautes en viande (575-1150) et en vin (996-1494).Cependant vers la gauche, nous retrouvons les salaires les plus faibles qui semblent s’éloigner du barycentre (20000-30000).
    Ainsi, on peut dire que l’axe \(F_1\) oppose principalement les salaires élevés aux salaires les plus faibles ainsi que les clients ayant des mineurs (enfants et/ou adolescents) aux clients qui n’en n’ont pas.

  • Axe \(F_2\) : Celui-ci oppose les consommateurs n’ayant pas d’adolescents à ceux qui en ont. Nous remarquons également une opposition entre les revenus extrêmes aux revenus intermédiaires donc la dépense dans les produits suit logiquement le type de revenu.


Aucune modalité a une bonne qualité de représentation pour être interprétée. Sauf, les achats sur catalogue et la dépense en viande. Ces deux modalités semblent contribuer à l’axe \(F_3\).Mais aussi, elles s’éloignent de la même façon du barycentre, celles-ci sont des modalités rares.

7.4 Études des individus

7.4.1 Contribution des individus

On remarque une tendance particulière pour la contribution des individus sur \(F_3\).Nous pouvons voir quels individus contribuent le plus aux différentes dimensions.

7.4.2 Nuage des individus

Nous remarquons ici, un effet Guttman, en effet l’axe principal semble opposer les individus extrêmes. Ainsi, que l’axe \(F_2\) qui semble opposer les individus moyens aux individus extrêmes. On remarque que certains individus s’éloignent du barycentre, on peut supposer que ceux-ci prennent des modalités rares.


On remarque des individus sur la droite qui s’éloignent du barycentre, ils semblent se rapprocher des modalités prises tels que la dépense en viande et les achats sur catalogue. comme vu précedemment sur le nuage des variables sur \((F_3,F_4)\).

7.5 Étude simultanée

Nous pouvons désormais, faire des habillages sur les individus selon différentes modalités, pour nous aider à interpréter et mieux comprendre la position des individus.

Habillage :

  • Education et Revenu :

Nous remarquons spontanément que les clients ayant un niveau d’étude 2n Cycle ou Basic se situent particulièrement sur la gauche. Or, nous avons vu précédemment que les clients ayant des faibles revenus sont situés sur cette partie du plan, le deuxième graphique nous le confirme. Donc les individus n’ayant pas un haut niveau d’étude, et donc gagnant un salaire faible se situent sur le même quart de plan.


  • Dépense par produit :

Ces graphiques nous montrent que les clients qui dépensent beaucoup pour les différents produits se situent vers la droite des plans.Cette intensité de dépense suit l’intensité des revenus. Cependant, nous remarquons que pour le produit viande, les individus qui dépensent plus s’isolent des autres individus.


  • Mineurs :

Les clients ayant des enfants se situent sur la gauche. Contrairement à ceux qui ont des adolescents à charge qui se situent vers le bas.


  • Statut civil : Il n’y a pas de tendance sur la répartition des clients selon leurs statuts civils


  • Lieux d’achats :

Nous remarquons que les achats effectués en boutique sont plus situés sur le côté droit du plan. On peut penser que c’est logique car les individus ayant des revenus intermédiaires et élevés dépensent plus ou achètent plus souvent des produits d’où la concentration des points sur cette zone.

8 Clustering

L’objectif est de distinguer des sous-ensembles homogènes permettant de segmenter la population étudiée afin de mettre en place des stratégies commerciales dans le but d’optimiser le profit des entreprises.

8.1 Classification hiérarchique ascendante

Nous allons effectuer, dans un premier temps, une partition des individus de notre base de données. Pour cela nous utilisons la méthode de la classification hiérarchique ascendante. Nous choisissons cette méthode puisque le nombre de classes n’est pas fixé, nous laissons donc le logiciel choisir. Après plusieurs essais, nous retenons la classification par la méthode de Ward puisqu’elle maximise l’inertie inter-classes. Nous remarquons trois groupes distincts, dont un composé d’individus qui s’isolent du reste de la population. Ce dernier groupe se distingue davantage du reste de la population sur la dimension 3.

8.2 Nombre optimal de classes

Elbow method : Il est plus intéressant de faire 2, 3 ou 4 classes.

Silhouette method : On observe qu’effectuer une partition en 3 classes semble être la solution la plus intéressante.

8.3 CAH en trois classes

La classification avec le nombre optimal de classes semble être similaire à notre classification précédente. Les classes 1 et 3 se distinguent peu sur les quatre premières dimensions. Essayons d’améliorer notre classification.

8.4 Amélioration de la CAH

8.4.1 On enlève le bruit

Pour éviter de donner trop de poids à des individus aberrants (ou des erreurs), on ne conserve qu’une représentation des données correspondant à 95% de l’inertie totale. En conservant seulement 95% de l’inertie totale cumulée, nous allons effectuer notre classification sur 45 axes (initialement 53 axes).

8.4.2 CAH sans consolidation

8.4.3 CAH avec consolidation

Nous observons un changement après consolidation : les classes 1 et 3 se distinguent davantage sur les premiers axes factoriels. Il faut maintenant vérifier que l’inertie inter-classes est plus élevée dans le cas d’une classification avec consolidation, puisque cette dernière permet d’améliorer la partition :

  • inertie inter-classes de la classification sans consolidation : 0.197
  • inertie inter-classes de la classification avec consolidation : 0.218

Cela étant vérifié, il nous faut par la suite caractériser les classes résultant de notre classification afin de cibler au mieux les individus et leur comportement de consommateur.

8.5 Caractérisation des classes

8.5.1 Par des variables qualitatives

\(\rightarrow\) Veuillez scroller, pour pouvoir observer la totalité des tableaux
Quelles sont les variables caracétrisant le mieux la partition ?
p.value df
AchatsCatalog 0.0000000 4
Meat 0.0000000 4
Revenu 0.0000000 12
AchatsStores 0.0000000 4
Wines 0.0000000 4
Kidhome 0.0000000 4
Fish 0.0000000 4
Fruits 0.0000000 4
Sweet 0.0000000 4
Webvisit 0.0000000 4
AcceptedCmp5 0.0000000 2
Gold 0.0000000 4
AchatsRemises 0.0000000 4
AcceptedCmp1 0.0000000 2
AchatsWeb 0.0000000 4
AcceptedCmp4 0.0000000 2
Response 0.0000000 2
Year 0.0000000 4
AcceptedCmp2 0.0000000 2
Teenhome 0.0000002 4
Education 0.0000005 8
Dt_Customer 0.0044998 4


Les premières variables (AchatsCatlog, Meat, Revenu) du tableau sont celles qui sont le plus liées, qui caractérisent donc le mieux la partition.


Quelles sont les modalités caractérisant le mieux la première classe ?
Cla/Mod Mod/Cla Global p.value v.test
Wines=Wines_0-498 81.5 97.5 74.6 0 32.9
AchatsStores=Store_0-4 94.4 71.4 47.1 0 31.4
Kidhome=Kidhome_1 95.4 61.2 40.0 0 28.4
Fish=Fish_0-87 72.8 99.1 84.8 0 24.9
Fruits=Fruits_0-66 71.6 99.5 86.6 0 24.0
Revenu=30000-45000 98.1 37.6 23.9 0 22.2
Sweet=Sweet_0-87 69.1 99.5 89.7 0 20.3
Webvisit=VisitMonth_6-13 87.8 51.6 36.7 0 19.7
AcceptedCmp5=AcceptedCmp5_0 67.2 100.0 92.7 0 18.1
Meat=Meat_0-575 67.1 100.0 92.9 0 17.8
Revenu=20000-30000 100.0 17.6 11.0 0 15.5
Gold=Gold_0-107 68.2 96.2 87.9 0 15.2
AcceptedCmp1=AcceptedCmp1_0 66.2 99.4 93.6 0 14.7
AchatsWeb=Web_0-8 66.1 98.1 92.6 0 12.7
AchatsCatalog=Catalog_0-9 64.3 100.0 96.9 0 11.5
AcceptedCmp4=AcceptedCmp4_0 65.6 97.5 92.6 0 11.1
Response=Response_0 66.5 90.8 85.1 0 9.5
Revenu=15000-20000 100.0 5.4 3.4 0 8.2
Year=Year_1961-1996 66.8 75.9 70.8 0 6.7
AcceptedCmp2=AcceptedCmp2_0 63.1 99.9 98.6 0 6.4
Education=Basic 98.1 3.8 2.4 0 6.4
Kidhome=Kidhome_2 100.0 3.3 2.1 0 6.3
Revenu=1500-15000 98.1 3.7 2.4 0 6.2
Teenhome=Teenhome_1 68.4 50.4 45.9 0 5.5
Revenu=45000-65000 68.8 31.8 28.8 0 4.0
AchatsRemises=AchatsRemises_4-9 74.5 11.5 9.6 0 3.9
Dt_Customer=2014 66.5 26.6 24.9 0 2.4
Webvisit=VisitMonth_13-20 100.0 0.6 0.4 0 2.3
Meat=Meat_1150-1725 0.0 0.0 0.2 0 -2.3
AchatsCatalog=Catalog_19-28 0.0 0.0 0.2 0 -2.3
Marital_Status=Widow 46.1 2.5 3.4 0 -2.9
Education=PhD 55.9 19.4 21.6 0 -3.3
Dt_Customer=2012 55.2 19.5 22.0 0 -3.6
AchatsRemises=AchatsRemises_0-4 61.0 87.5 89.4 0 -3.7
Gold=Gold_214-321 15.2 0.4 1.5 0 -5.5
Teenhome=Teenhome_0 56.4 46.8 51.8 0 -6.0
AcceptedCmp2=AcceptedCmp2_1 6.7 0.1 1.4 0 -6.4
AchatsStores=Store_4-8 52.2 25.4 30.4 0 -6.5
Year=Year_1927-1961 51.5 24.0 29.0 0 -6.7
Sweet=Sweet_174-262 0.0 0.0 1.1 0 -6.7
Response=Response_1 38.5 9.2 14.9 0 -9.5
AcceptedCmp4=AcceptedCmp4_1 21.3 2.5 7.4 0 -11.1
AchatsCatalog=Catalog_9-19 0.0 0.0 2.9 0 -11.2
Fish=Fish_174-261 4.0 0.3 4.5 0 -12.7
AchatsWeb=Web_8-17 14.9 1.7 7.3 0 -12.9
Fruits=Fruits_132-200 1.1 0.1 4.1 0 -13.0
Gold=Gold_107-214 20.5 3.5 10.6 0 -13.8
Wines=Wines_996-1494 2.5 0.2 5.3 0 -14.4
AcceptedCmp1=AcceptedCmp1_1 5.7 0.6 6.4 0 -14.7
Meat=Meat_575-1150 0.0 0.0 6.9 0 -17.6
AcceptedCmp5=AcceptedCmp5_1 0.0 0.0 7.3 0 -18.1
Sweet=Sweet_87-174 3.5 0.5 9.1 0 -18.8
Fruits=Fruits_66-132 2.9 0.4 9.3 0 -19.2
Revenu=80000-700000 2.8 0.4 9.8 0 -19.9
Webvisit=VisitMonth_0-6 47.3 47.8 63.0 0 -19.9
Fish=Fish_87-174 3.8 0.7 10.7 0 -20.4
Revenu=65000-80000 10.1 3.3 20.7 0 -26.3
Wines=Wines_498-996 7.2 2.3 20.1 0 -27.5
AchatsStores=Store_8-13 8.9 3.2 22.5 0 -28.6
Kidhome=Kidhome_0 38.2 35.4 57.9 0 -29.8


Les consommateurs de cette classe ont des revenus relativement faibles. La totalité des individus avec un revenu compris entre 15000 et 30000 sont dans cette première classe et 98.1% des individus avec un revenu compris entre 1500 et 15000, et entre 30000 et 45000 le sont également. Même si certains consommateurs ont des revenus plus élevés, le revenu moyen de cette classe reste relativement bas.

De plus, on remarque que ces individus ont un comportement de consommateur plutôt “timide”, ils dépensent peu pour les produits de notre étude. Si nous prenons l’exemple de la dépense en vin, parmi les individus de cette classe, 97.5% dépensent entre 0 et 498 en vin. Ce comportement est remarquable également par leur faible fréquence d’achat en magasin. Cependant, une majorité surveille fréquemment les sites internet. La totalité des individus qui visitent le plus les sites internet et 87.8% des consommateurs le faisant très régulièrement sont dans cette classe. Attention toute fois à être vigilant avec cette remarque, puisque 47.8% des individus de cette classe visitent très peu les sites internet.

Concernant le nombre d’enfants dans leur foyer, on peut dire qu’il est plus élevé que dans les autres classes puisque la totalité des individus avec deux enfants à charge et 95.4% avec un enfant sont dans cette classe. En ce qui concerne le nombre d’adolescents dans leur foyer, il est plus faible. Au sein de cette classe, 46.9% des individus n’ont pas d’adolescent et 50.4% ont un adolescent à charge.

Quelles sont les modalités caractérisant le mieux la deuxième classe ?
Cla/Mod Mod/Cla Global p.value v.test
Meat=Meat_1150-1725 100.0 100 0.2 0 7.1
AchatsCatalog=Catalog_19-28 100.0 100 0.2 0 7.1
AchatsRemises=AchatsRemises_9-15 13.0 75 1.0 0 4.6
Revenu=80000-700000 1.4 75 9.8 0 2.9
AchatsStores=Store_0-4 0.4 100 47.1 0 2.0
AchatsRemises=AchatsRemises_0-4 0.1 25 89.4 0 -2.8
Meat=Meat_0-575 0.0 0 92.9 0 -4.2
AchatsCatalog=Catalog_0-9 0.0 0 96.9 0 -4.9

Parmi les individus de cette classe, 75% ont un revenu compris entre 80000 et 700000. Cependant, cette classe comporte peu d’individus ce qui explique que seulement 1.4% des individus avec ce revenu sont dans cette classe. En regardant la consommation de ces individus, nous pouvons voir que la totalité des individus dépensant le plus en viande se trouve dans cette classe. Et donc, aucun individu dans cette classe dépense peu en viande. Pour ce qui est des achats effectués sur catalogue, 100% des individus effetuant un grand nombre d’achats sur catalogue se trouvent dans cette classe. De plus, tous les individus achètent au moins 19 fois sur catalogue.


Quelles sont les modalités caractérisant le mieux la troisième classe ?
Cla/Mod Mod/Cla Global p.value v.test
Kidhome=Kidhome_0 61.6 95.2 57.9 0 29.8
AchatsStores=Store_8-13 91.1 54.7 22.5 0 28.7
Wines=Wines_498-996 92.8 49.8 20.1 0 27.6
Revenu=65000-80000 89.9 49.6 20.7 0 26.4
Fish=Fish_87-174 96.2 27.4 10.7 0 20.4
Webvisit=VisitMonth_0-6 52.4 88.0 63.0 0 19.8
Revenu=80000-700000 95.9 25.1 9.8 0 19.3
Fruits=Fruits_66-132 97.1 24.0 9.3 0 19.3
Sweet=Sweet_87-174 96.5 23.6 9.1 0 18.9
AcceptedCmp5=AcceptedCmp5_1 100.0 19.4 7.3 0 18.2
Meat=Meat_575-1150 100.0 18.4 6.9 0 17.6
AcceptedCmp1=AcceptedCmp1_1 94.3 16.1 6.4 0 14.8
Wines=Wines_996-1494 97.5 13.9 5.3 0 14.4
Gold=Gold_107-214 79.5 22.5 10.6 0 13.9
Fruits=Fruits_132-200 98.9 10.9 4.1 0 13.0
AchatsWeb=Web_8-17 85.1 16.5 7.3 0 12.9
Fish=Fish_174-261 96.0 11.6 4.5 0 12.8
AchatsCatalog=Catalog_9-19 100.0 7.9 2.9 0 11.2
AcceptedCmp4=AcceptedCmp4_1 78.7 15.6 7.4 0 11.2
Response=Response_1 61.5 24.5 14.9 0 9.6
Year=Year_1927-1961 48.5 37.6 29.0 0 6.8
Sweet=Sweet_174-262 100.0 3.0 1.1 0 6.7
AchatsStores=Store_4-8 47.8 38.8 30.4 0 6.6
AcceptedCmp2=AcceptedCmp2_1 93.3 3.4 1.4 0 6.4
Teenhome=Teenhome_0 43.4 59.9 51.8 0 5.9
Gold=Gold_214-321 84.8 3.4 1.5 0 5.6
AchatsRemises=AchatsRemises_0-4 38.9 92.8 89.4 0 4.1
Dt_Customer=2012 44.6 26.2 22.0 0 3.6
Education=PhD 43.7 25.2 21.6 0 3.2
Marital_Status=Widow 53.9 5.0 3.4 0 2.9
Webvisit=VisitMonth_13-20 0.0 0.0 0.4 0 -2.3
Dt_Customer=2014 33.3 22.1 24.9 0 -2.4
AchatsRemises=AchatsRemises_4-9 25.5 6.5 9.6 0 -3.9
Revenu=45000-65000 31.2 24.0 28.8 0 -3.9
Teenhome=Teenhome_1 31.5 38.5 45.9 0 -5.4
Kidhome=Kidhome_2 0.0 0.0 2.1 0 -6.3
Education=Basic 1.9 0.1 2.4 0 -6.3
AcceptedCmp2=AcceptedCmp2_0 36.7 96.6 98.6 0 -6.4
Revenu=1500-15000 0.0 0.0 2.4 0 -6.7
Year=Year_1961-1996 33.0 62.3 70.8 0 -6.8
Revenu=15000-20000 0.0 0.0 3.4 0 -8.2
Response=Response_0 33.3 75.5 85.1 0 -9.6
AchatsCatalog=Catalog_0-9 35.7 92.1 96.9 0 -10.1
AcceptedCmp4=AcceptedCmp4_0 34.2 84.4 92.6 0 -11.2
AchatsWeb=Web_0-8 33.7 83.3 92.6 0 -12.8
AcceptedCmp1=AcceptedCmp1_0 33.6 83.9 93.6 0 -14.8
Gold=Gold_0-107 31.6 74.2 87.9 0 -15.2
Revenu=20000-30000 0.0 0.0 11.0 0 -15.5
Meat=Meat_0-575 32.9 81.6 92.9 0 -16.7
AcceptedCmp5=AcceptedCmp5_0 32.6 80.6 92.7 0 -18.2
Webvisit=VisitMonth_6-13 12.2 12.0 36.7 0 -19.6
Sweet=Sweet_0-87 30.7 73.4 89.7 0 -20.3
Revenu=30000-45000 1.9 1.2 23.9 0 -22.2
Fruits=Fruits_0-66 28.2 65.1 86.6 0 -24.0
Fish=Fish_0-87 27.0 61.0 84.8 0 -25.0
Kidhome=Kidhome_1 4.5 4.8 40.0 0 -28.4
AchatsStores=Store_0-4 5.2 6.5 47.1 0 -31.7
Wines=Wines_0-498 18.3 36.4 74.6 0 -33.0


Globalement, les individus de cette classe ont peu d’enfant, 95.2% n’en n’ont pas et 4.8% ont seulement un enfant. En outre, 89.9% des individus ayant un revenu compris entre 65000 et 80000 et 95.9% avec un revenu compris entre 80000 et 700000 sont dans cette classe. En ce qui concerne leur comportement de consommateur, on peut voir qu’ils ont tendance à dépenser beaucoup en viande et en poisson. En effet, 97.5% des individus qui ont une une dépense conséquente en viande, ainsi que 96.2% avec une dépense conséquente en poisson sont dans cette classe. Enfin, 93.5% (38.7+54.8) des individus de cette classe achètent beaucoup en magasin.

8.5.2 Par des variables quantitatives

Quelles sont les variables caractérisant le mieux la partition ?
Eta2 P-value
Dim.1 0.7206104 0.0000000
Dim.3 0.8733336 0.0000000
Dim.2 0.0445863 0.0000000
Dim.6 0.0380470 0.0000000
Dim.7 0.0206479 0.0000000
Dim.9 0.0135431 0.0000003
Dim.4 0.0124214 0.0000010
Dim.11 0.0092708 0.0000345
Dim.8 0.0083752 0.0000936
Dim.13 0.0070425 0.0004116
Dim.29 0.0061188 0.0011479
Dim.36 0.0052112 0.0031416
Dim.14 0.0048709 0.0045813
Dim.40 0.0042024 0.0096097
Dim.17 0.0038048 0.0149245
Dim.44 0.0029748 0.0374008
Dim.12 0.0029195 0.0397581

Les dimensions 1 et 3 caractérisent le mieux la partition puisqu’elles ont les p-value les plus petites et permettent donc de bien séparer les classes.

Quelles sont les variables caractérisant le mieux la première classe ?
v.test Mean in category Overall mean sd in category Overall sd p.value
Dim.7 6.132944 0.0236635 0 0.2076167 0.2332466 0.0000000
Dim.4 5.158289 0.0240051 0 0.1645803 0.2813214 0.0000002
Dim.2 4.890582 0.0247953 0 0.2648840 0.3064879 0.0000010
Dim.11 4.524349 0.0159955 0 0.1779325 0.2137201 0.0000061
Dim.8 4.297567 0.0156380 0 0.1433776 0.2199701 0.0000173
Dim.17 2.757244 0.0092307 0 0.1881649 0.2023786 0.0058291
Dim.44 2.052284 0.0049088 0 0.1118815 0.1445911 0.0401421
Dim.12 -2.038896 -0.0071478 0 0.1848786 0.2119260 0.0414604
Dim.14 -2.326614 -0.0079093 0 0.1836093 0.2055032 0.0199858
Dim.3 -3.748474 -0.0180734 0 0.1121829 0.2914671 0.0001779
Dim.13 -3.926384 -0.0135547 0 0.1820884 0.2086900 0.0000862
Dim.1 -39.784863 -0.2804286 0 0.1536085 0.4260978 0.0000000

La dimension 7 caractérise le mieux la première classe car elle a la valeur test la plus grande. Cette classe correspond aux axes 7 et 4.

Quelles sont les variables caractérisant le mieux la deuxième classe ?
v.test Mean in category Overall mean sd in category Overall sd p.value
Dim.3 43.892030 6.3921933 0 0.3415237 0.2914671 0.0000000
Dim.2 8.352057 1.2790324 0 0.0830553 0.3064879 0.0000000
Dim.9 5.235376 0.5712471 0 0.1824864 0.2183742 0.0000002
Dim.29 3.615387 0.3324409 0 0.2573886 0.1840284 0.0002999
Dim.36 3.107755 0.2585627 0 0.3032736 0.1665115 0.0018851
Dim.7 2.484159 0.2895140 0 0.1483738 0.2332466 0.0129858
Dim.28 2.442113 0.2254534 0 0.0923981 0.1847636 0.0146016
Dim.14 2.435269 0.2500578 0 0.2383527 0.2055032 0.0148807
Dim.24 2.277969 0.2194505 0 0.1579803 0.1928031 0.0227284
Dim.32 -2.366691 -0.2088981 0 0.2289791 0.1766519 0.0179479
Dim.40 -2.467164 -0.1939016 0 0.2620238 0.1572928 0.0136188
Dim.6 -9.165528 -1.1096638 0 0.3298189 0.2423032 0.0000000

La dimension 3 caractérise le mieux la deuxième classe car elle a la valeur test la plus grande. Cette classe correspond principlamenent à l’axe 3 qui représente l’achat sur catalogue et la dépense en viande.

Quelles sont les variables caractérisant le mieux la troisième classe ?
v.test Mean in category Overall mean sd in category Overall sd p.value
Dim.1 39.883813 0.4670766 0 0.3097956 0.4260978 0.0000000
Dim.13 3.879234 0.0222500 0 0.2452409 0.2086900 0.0001048
Dim.12 2.163723 0.0126028 0 0.2502212 0.2119260 0.0304856
Dim.14 2.114968 0.0119455 0 0.2361781 0.2055032 0.0344327
Dim.44 -2.178993 -0.0086592 0 0.1863658 0.1445911 0.0293322
Dim.17 -2.824994 -0.0157132 0 0.2229897 0.2023786 0.0047281
Dim.8 -4.267627 -0.0258007 0 0.3062579 0.2199701 0.0000198
Dim.11 -4.507822 -0.0264786 0 0.2609031 0.2137201 0.0000065
Dim.4 -5.059082 -0.0391162 0 0.4042482 0.2813214 0.0000004
Dim.2 -5.628802 -0.0474145 0 0.3503062 0.3064879 0.0000000
Dim.7 -6.357004 -0.0407521 0 0.2652448 0.2332466 0.0000000

La dimension 1 caractérise le mieux la troisième classe car elle a la valeur test la plus grande. Cette classe correspond à l’axe 1 qui oppose principalement les revenus élevés aux revenus les plus faibles ainsi que les individus ayant des mineurs (enfants et/ou adolescents) aux individus qui n’en n’ont pas

8.5.3 Par les individus

## Cluster: 1
##      4368      7181      3386      8175      7533 
## 0.5850729 0.6016626 0.6040264 0.6040264 0.6040413 
## ------------------------------------------------------------ 
## Cluster: 2
##      1501      8475      5376      4931 
## 0.7447866 0.8038601 1.2134549 1.5239392 
## ------------------------------------------------------------ 
## Cluster: 3
##     10582      5562      2579      6001      6327 
## 0.8405590 0.8665167 0.8715747 0.8721389 0.8762601

8.5.3.1 Parangon classe 1

Étudions les parangons de la classe 1 pour étailler nos propos précédents.
Parangons classe 1
Revenu Dépense viande Dépense vin Dépense poisson Dépense or
Individu 4368 5 1 1 1 1
Individu 7533 5 1 1 1 1
Individu 2404 5 1 1 1 1
Individu 3386 4 1 1 1 1
Individu 8175 4 1 1 1 1
Dépense fruits Dépense bonbons Achats en magasin Visite sites Adolescents à charge Enfants à charge
Individu 4368 1 1 1 1 1 2
Individu 7533 1 1 1 2 2 2
Individu 2404 1 1 1 2 2 2
Individu 3386 1 1 1 2 1 1
Individu 8175 1 1 1 2 1 1

Nous remarquons qu’ils ont un revenu moyen, dépensent très peu dans tous les produits, achètent peu en magasin et ont un nombre moyen de mineurs au sein de leur foyer.

8.5.3.2 Parangon classe 2

Étudions les parangons de la classe 2 pour étailler nos propos précédents.
Parangons classe 2
Revenu Achats sur catalogue Dépense en viande
Individu 1501 7 3 3
Individu 8475 7 3 3
Individu 5376 1 3 3
Individu 4931 7 3 3

Nous remarquons que dans l’ensemble, les paragons de cette classe remplissent les critères de caractérisation de la classe trouvéé précedemment.

8.5.3.3 Parangon classe 3

Étudions les parangons de la classe pour étailler nos propos précédents.
Parangons classe 3
Revenu Dépense viande Dépense poisson Enfants à charge Achats magasin
Individu 10582 6 1 1 1 3
Individu 5562 5 1 1 1 3
Individu 6001 5 1 1 1 3
Individu 2579 6 1 1 1 3
Individu 6327 6 1 1 1 2

Nous remarquons que dans l’ensemble, les paragons de cette classe illustrent bien les caractéristiques des individus de cette classes mise à part pour la dépense en viande et en poisson.

9 Conclusion

Après avoir effectué plusieurs analyses factorielles et une classification, nous obtenons trois classes d’individus à cibler. Nous avons constaté un effet Guttman dès notre Analyse Factorielle des Correspondances. Celui-ci nous permet de déduire que le niveau de revenu oriente le niveau de dépense pour les différents produits.

En effet, les consommateurs appartenant à la première classe ont un train de vie modeste, ce qui traduit des revenus faibles et moyens. Ces individus n’ont notamment pas un niveau d’étude très élevés (2nd Cycle et Basic) et ils ont des enfants à charges ce qui traduirait la fréquence d’achats et de visite sur le site internet. Ainsi, ces consommateurs vont principalement acheter des produits de premières nécessité, et non des produits de confort comme ceux présents dans notre base de données. Afin de stimuler cette demande, les entreprises ont intérêt à effectuer des stratégies promotionnelles principalemment établies sur le site internet.

Pour reprendre l’effet Guttman, en opposition à cette classe, nous retrouvons les consommateurs de la troisième classe qui ont des revenus plus importants. Cette classe est fondamentale puisqu’elle représente la part la plus conséquente d’individus avec un niveau de dépenses élevés. De plus, ceux sont ces individus qui achètent principalement en magasin. Ainsi, il est cruciale pour les entreprises de promouvoir des biens de qualités auprès de cette classe.

Enfin, il existe une autre classe qui regroupe peu de consommateurs ayant des caractéristiques plutôt rares telles qu’un revenu extrêmement élevé, une dépense en viande excessive et un nombre élevé d’achats sur catalogue. Cela s’explique par le fait que les biens vendus sur catalogues sont onéreux, comme vu précédemment dans l’Analyse par Composantes Principales.

Pour étailler davantage notre étude, nous pouvons décrire la position des parangons. Ceux-ci sont placés à l’intersection des classes 1 et 3, ce qui explique leur comportement intermédiaire (un revenu intermédiraire, une dépense moyenne). En outre, ces consommateurs ont généralement des adolescents à charge. Après avoir pris connaissance de toutes ces informations, nous pouvons remaquer un effet graphique : il apparaît que l’évolution des mineurs dans le foyer représente un certain cycle de vie des consommateurs. En effet, chaque classe représente un moment de la vie de ceux-ci, c’est-à-dire la classe 1 représente les consommateurs avec des revenus faibles et des enfants, les parangons représentent les consommateurs avec des revenus intermédiaires et des adolescents à charges, enfin la clase 3 représente les consommateurs avec des revenus élevés et aucun mineur à charge. Attention toutefois à nuancer ce propos puisque certains consommateurs ne suivent pas ce cycle. Nous pouvons le voir graphiquement :

Cette information est cruciale pour la stratégie marketing des entreprises puisqu’elle leur permettra d’adapter la promotion de ces produits aux différentes générations de consommateurs.